본문 바로가기

프로그래밍 언어

[Python] 노멀라이징, Feature Scaling: StandardScaler(), MinMaxScaler() 노멀라이징: ㄴ 노멀라이징: 데이터 노멀라이징 하는 이유는, 각각의 레인지를 통일하여, 해석하기 쉽게 하기 위함입니다. - 학습에 들어갈 데이터는 사람이 만든다. 학습은 컴퓨터가 한다. - 머신 러닝에 제일 많이 쓰이는 것이, 제일 많이 쓰는것이 퍼센테이지, - “~률”이 범위를 통일 시켜주는 것, 0에서 100으로 통일 ㄴ 각 건수에 대해서는 범위가 각 다르기 때문에(1~10과 100과 1000) 절대 비교가 불가능하다. ㄴ 인공지능도 범위가 통일되어있지 않은 상태에서 학습을 시키면, 학습이 안된다. - 인공지능에서는 특징이라고 하고, - 데이터 분석에서는 컬럼이라고 한다. - 학습을 시킬 때는 퍼센테이지가 좋지만, 이는 사람이 보기 편하기 위함이라, 이를 컴퓨터에 응용하면, 계산을 잘 못한다. - F.. 더보기
[Python] 구글맵 API: gmaps.geocode 구글맵 API ㄴ 설치 되어있지 않은 경우: 아나콘다 프롬프트웨어 다음을 실행. ㄴ pip install googlemaps 구글 클라우드의 MAPS API 페이지로 이동하여, API 키를 생성한다. https://cloud.google.com/maps-platform/?hl=ko 콘솔로 이동 => Geocoding API 선택 => 사용자인증정보 에서 API 키 생성 API 호출(API Call) import googlemaps gmaps_key = "(본인 고유 key)" gmaps = googlemaps.Client(key=gmaps_key) ㄴ 네트워크 통해서 호출하는 것 ㄴ 여태까지는 컴퓨터에 저장되어있는 라이브러리에서 불러왔었음. result = gmaps.geocode('서울중부경찰서', l.. 더보기
[Python] 피벗 테이블, Pivot Table: pd.pivot_table() 피벗 테이블: pd.pivot_table() ㄴ피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. ㄴ인덱스는 중복이 있으면 안된다. ㄴ따라서, 피봇테이블에 네임 컬럼을 인덱스로 만들겠다는 건 , 중복을 없앤다는 뜻 pd.pivot_table(데이터프레임, index=[ 컬럼명 ], ) ㄴ 피봇 테이블은 수치 데이터만을 (문자데이터는 처리할 수 없으니까) 하나로 합친다. ㄴ 기본적으로 수치데이터를 다 평균으로 해서 계산을 한다. pd.pivot_table(데이터프레임, index=[ 컬럼명 ], aggfunc = np.sum) ㄴ 평균이 아니라, 합으로 계산. ㄴ 넘파이의 합에서 가져온다. pd.pivot_table(df,index=['Name'],aggfunc = np.max) ㄴ 이건 비추, 문자열도 가져온.. 더보기
[Python] 차트 한글처리 코드 차트 한글처리 코드(차트 타이틀, 라벨) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" font_name = font_manager.. 더보기
[Python] 여러개변수 시각화/히트맵: plt.scatterplots(), sb.regplot(), sb.pairplot(), plt.hist2d() 여러개 변수 시각화1 : plt.scatterplots() ㄴ Bivariate Visualization: 두 컬럼간의 관계를 표현한 차트 ㄴ 1. plt의 scatter사용 ㄴ 2. seaborn의 regplot 사용 ㄴ 3. seaborn의 pairplot 사용 - 두 컬럼간의 관계를 차트로 나타내는 방법 - 관계란: 1. 비례 관계, 2. 반비례 관계, 3. 아무 관계 없음. 3가지를 말한다. plt.scatter(data = 데이터프레임, x = 컬럼명1, y = 컬럼명2 ) ㄴ 왜 두 컬럼비교하는 거라서, x축,y축 모두 설정해야한다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as s.. 더보기
[Python] 파이차트, Pie Chart,히스토그램: plt.pie(), plt.hist(), plt.figure(), plt.subplot() Pie Chart 파이 차트: plt.pie() ㄴ 퍼센트로 비교해서 보고싶을때 사용한다. ㄴ 전체가 100일 때의 퍼센트 plt.pie(데이터, autopct='%.1f',labels= 데이터.index, startangle = 90,wedgeprops={'width':0.7}) ㄴ 파이 차트는 바로 파라미터를 기입한다. ㄴ autopct: %.1f 소수점 1자리까지라는 뜻, .3f면 소수점 3자리, .0f이면 소수점 없음 ㄴ labels: 할당 부분에 표시할 레이블, 대개는 불러온 데이터의 인덱스로 사용한다. ㄴ strartangle: 파이 차트를 처음에 시작할 때 몇도로 시작하고 싶다. ㄴ wedgeprops= {‘width’: } :도넛처럼 가운데를 뚫어준다. 대개는 0.7로 사용한다. ㄴ wed.. 더보기
[Python] Bar Chart 바 차트:sb.countplot(), sb.color_palette(), value_counts(), plt.xticks(), plt.title(), plt.legend() Bar Chart 바 차트 - ex) 제네레이션 아이디별로, 각각 몇개씩 있는지 차트로 표시 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('data/pokemon.csv') # 카테고리컬 데이터인지 먼저 확인 sb.countplot(data=df,x='generation_id') plt.show() - Seaborn의 라이브러리를 사용하더라도, 플럿의 라이브러를 사용해도 깨끗하게 표시된다. sb.countplot(data=데이터 프레임, x= 컬럼명) - 카운트플럿 함수는 데이터 프레임 넣어주고, 컬럼 넣어주면, 거기에 해.. 더보기
[Python] 데이터 시각화: 개념,plt.plot(x,y), plt.show(), plt.savefig() Tidy Data - 깔끔한 데이터. 이하는 깔끔한 데이터의 특징 - 변수는 컬럼이다 - 데이터가 행으로 되어있다. - 만약 여러개의 표가 존재한다면, 적어도 하나 이상의 컬럼이 공유되어야 한다. - 이러한 타입의 데이터만이 차트로 그릴수 있다. ㄴ 판다스 데이터프레임으로 작업을 하면, 차트를 그릴 수 있다. 데이터 시각화: - Matplotlib 라이브러리 ㄴ 파이썬에서 수학적 확장 넘파이 라이브러리를 활용한 플로팅 라이브러리. ㄴ 넘파이나 판다스에서 사용되는 자료구조를 쉽게 시각화 가능 - seaborn 라이브러리 ㄴ Matplotlin을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지로, 유익한 통계 그래픽을 그리기 위한 고급 인터페이스 제공 -> 함수 파라미터에 뭐만 쓰.. 더보기