본문 바로가기

전체 글

[Python] 넘파이/판다스 타임 시리즈: datetime64, pd.to_datetime(), pd.to_timedelta(), pd.date_range() 시간 관련 설명: strftime section datetime documentation dateutil's online documentation - 시간에 따라서 달려있는 데이터를 타임시리즈 데이터라고 한다. 넘파이 타임 시리즈: datetime64 ㄴ 기존의 파이썬 datetime 을 보강하기 위해, date 의 array 도 처리할 수 있게 numpy 에서 64-bit 로 처리하도록 라이브러리를 강화했음. import numpy as np any_date = np.array('2022-05-11',dtype = np.datetime64) ㄴ 뒤에 np.datetime64에서 앞에 얘는 문자가 아니라, 날짜다. 라는 뜻 ex) 45일 전의 날짜, 10일 전의 날짜, 10치의 데이터 등 (바로바로 계산.. 더보기
[Python] 노멀라이징, Feature Scaling: StandardScaler(), MinMaxScaler() 노멀라이징: ㄴ 노멀라이징: 데이터 노멀라이징 하는 이유는, 각각의 레인지를 통일하여, 해석하기 쉽게 하기 위함입니다. - 학습에 들어갈 데이터는 사람이 만든다. 학습은 컴퓨터가 한다. - 머신 러닝에 제일 많이 쓰이는 것이, 제일 많이 쓰는것이 퍼센테이지, - “~률”이 범위를 통일 시켜주는 것, 0에서 100으로 통일 ㄴ 각 건수에 대해서는 범위가 각 다르기 때문에(1~10과 100과 1000) 절대 비교가 불가능하다. ㄴ 인공지능도 범위가 통일되어있지 않은 상태에서 학습을 시키면, 학습이 안된다. - 인공지능에서는 특징이라고 하고, - 데이터 분석에서는 컬럼이라고 한다. - 학습을 시킬 때는 퍼센테이지가 좋지만, 이는 사람이 보기 편하기 위함이라, 이를 컴퓨터에 응용하면, 계산을 잘 못한다. - F.. 더보기
[Python] 구글맵 API: gmaps.geocode 구글맵 API ㄴ 설치 되어있지 않은 경우: 아나콘다 프롬프트웨어 다음을 실행. ㄴ pip install googlemaps 구글 클라우드의 MAPS API 페이지로 이동하여, API 키를 생성한다. https://cloud.google.com/maps-platform/?hl=ko 콘솔로 이동 => Geocoding API 선택 => 사용자인증정보 에서 API 키 생성 API 호출(API Call) import googlemaps gmaps_key = "(본인 고유 key)" gmaps = googlemaps.Client(key=gmaps_key) ㄴ 네트워크 통해서 호출하는 것 ㄴ 여태까지는 컴퓨터에 저장되어있는 라이브러리에서 불러왔었음. result = gmaps.geocode('서울중부경찰서', l.. 더보기
[Python] 피벗 테이블, Pivot Table: pd.pivot_table() 피벗 테이블: pd.pivot_table() ㄴ피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. ㄴ인덱스는 중복이 있으면 안된다. ㄴ따라서, 피봇테이블에 네임 컬럼을 인덱스로 만들겠다는 건 , 중복을 없앤다는 뜻 pd.pivot_table(데이터프레임, index=[ 컬럼명 ], ) ㄴ 피봇 테이블은 수치 데이터만을 (문자데이터는 처리할 수 없으니까) 하나로 합친다. ㄴ 기본적으로 수치데이터를 다 평균으로 해서 계산을 한다. pd.pivot_table(데이터프레임, index=[ 컬럼명 ], aggfunc = np.sum) ㄴ 평균이 아니라, 합으로 계산. ㄴ 넘파이의 합에서 가져온다. pd.pivot_table(df,index=['Name'],aggfunc = np.max) ㄴ 이건 비추, 문자열도 가져온.. 더보기
[Python] 차트 한글처리 코드 차트 한글처리 코드(차트 타이틀, 라벨) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" font_name = font_manager.. 더보기
[Python] 여러개변수 시각화/히트맵: plt.scatterplots(), sb.regplot(), sb.pairplot(), plt.hist2d() 여러개 변수 시각화1 : plt.scatterplots() ㄴ Bivariate Visualization: 두 컬럼간의 관계를 표현한 차트 ㄴ 1. plt의 scatter사용 ㄴ 2. seaborn의 regplot 사용 ㄴ 3. seaborn의 pairplot 사용 - 두 컬럼간의 관계를 차트로 나타내는 방법 - 관계란: 1. 비례 관계, 2. 반비례 관계, 3. 아무 관계 없음. 3가지를 말한다. plt.scatter(data = 데이터프레임, x = 컬럼명1, y = 컬럼명2 ) ㄴ 왜 두 컬럼비교하는 거라서, x축,y축 모두 설정해야한다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as s.. 더보기
[Python] 파이차트, Pie Chart,히스토그램: plt.pie(), plt.hist(), plt.figure(), plt.subplot() Pie Chart 파이 차트: plt.pie() ㄴ 퍼센트로 비교해서 보고싶을때 사용한다. ㄴ 전체가 100일 때의 퍼센트 plt.pie(데이터, autopct='%.1f',labels= 데이터.index, startangle = 90,wedgeprops={'width':0.7}) ㄴ 파이 차트는 바로 파라미터를 기입한다. ㄴ autopct: %.1f 소수점 1자리까지라는 뜻, .3f면 소수점 3자리, .0f이면 소수점 없음 ㄴ labels: 할당 부분에 표시할 레이블, 대개는 불러온 데이터의 인덱스로 사용한다. ㄴ strartangle: 파이 차트를 처음에 시작할 때 몇도로 시작하고 싶다. ㄴ wedgeprops= {‘width’: } :도넛처럼 가운데를 뚫어준다. 대개는 0.7로 사용한다. ㄴ wed.. 더보기
[Python] Bar Chart 바 차트:sb.countplot(), sb.color_palette(), value_counts(), plt.xticks(), plt.title(), plt.legend() Bar Chart 바 차트 - ex) 제네레이션 아이디별로, 각각 몇개씩 있는지 차트로 표시 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('data/pokemon.csv') # 카테고리컬 데이터인지 먼저 확인 sb.countplot(data=df,x='generation_id') plt.show() - Seaborn의 라이브러리를 사용하더라도, 플럿의 라이브러를 사용해도 깨끗하게 표시된다. sb.countplot(data=데이터 프레임, x= 컬럼명) - 카운트플럿 함수는 데이터 프레임 넣어주고, 컬럼 넣어주면, 거기에 해.. 더보기