[Python] 노멀라이징, Feature Scaling: StandardScaler(), MinMaxScaler()
노멀라이징: ㄴ 노멀라이징: 데이터 노멀라이징 하는 이유는, 각각의 레인지를 통일하여, 해석하기 쉽게 하기 위함입니다. - 학습에 들어갈 데이터는 사람이 만든다. 학습은 컴퓨터가 한다. - 머신 러닝에 제일 많이 쓰이는 것이, 제일 많이 쓰는것이 퍼센테이지, - “~률”이 범위를 통일 시켜주는 것, 0에서 100으로 통일 ㄴ 각 건수에 대해서는 범위가 각 다르기 때문에(1~10과 100과 1000) 절대 비교가 불가능하다. ㄴ 인공지능도 범위가 통일되어있지 않은 상태에서 학습을 시키면, 학습이 안된다. - 인공지능에서는 특징이라고 하고, - 데이터 분석에서는 컬럼이라고 한다. - 학습을 시킬 때는 퍼센테이지가 좋지만, 이는 사람이 보기 편하기 위함이라, 이를 컴퓨터에 응용하면, 계산을 잘 못한다. - F..
더보기
[Python] 피벗 테이블, Pivot Table: pd.pivot_table()
피벗 테이블: pd.pivot_table() ㄴ피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. ㄴ인덱스는 중복이 있으면 안된다. ㄴ따라서, 피봇테이블에 네임 컬럼을 인덱스로 만들겠다는 건 , 중복을 없앤다는 뜻 pd.pivot_table(데이터프레임, index=[ 컬럼명 ], ) ㄴ 피봇 테이블은 수치 데이터만을 (문자데이터는 처리할 수 없으니까) 하나로 합친다. ㄴ 기본적으로 수치데이터를 다 평균으로 해서 계산을 한다. pd.pivot_table(데이터프레임, index=[ 컬럼명 ], aggfunc = np.sum) ㄴ 평균이 아니라, 합으로 계산. ㄴ 넘파이의 합에서 가져온다. pd.pivot_table(df,index=['Name'],aggfunc = np.max) ㄴ 이건 비추, 문자열도 가져온..
더보기
[Python] 파이차트, Pie Chart,히스토그램: plt.pie(), plt.hist(), plt.figure(), plt.subplot()
Pie Chart 파이 차트: plt.pie() ㄴ 퍼센트로 비교해서 보고싶을때 사용한다. ㄴ 전체가 100일 때의 퍼센트 plt.pie(데이터, autopct='%.1f',labels= 데이터.index, startangle = 90,wedgeprops={'width':0.7}) ㄴ 파이 차트는 바로 파라미터를 기입한다. ㄴ autopct: %.1f 소수점 1자리까지라는 뜻, .3f면 소수점 3자리, .0f이면 소수점 없음 ㄴ labels: 할당 부분에 표시할 레이블, 대개는 불러온 데이터의 인덱스로 사용한다. ㄴ strartangle: 파이 차트를 처음에 시작할 때 몇도로 시작하고 싶다. ㄴ wedgeprops= {‘width’: } :도넛처럼 가운데를 뚫어준다. 대개는 0.7로 사용한다. ㄴ wed..
더보기
[Python] Bar Chart 바 차트:sb.countplot(), sb.color_palette(), value_counts(), plt.xticks(), plt.title(), plt.legend()
Bar Chart 바 차트 - ex) 제네레이션 아이디별로, 각각 몇개씩 있는지 차트로 표시 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('data/pokemon.csv') # 카테고리컬 데이터인지 먼저 확인 sb.countplot(data=df,x='generation_id') plt.show() - Seaborn의 라이브러리를 사용하더라도, 플럿의 라이브러를 사용해도 깨끗하게 표시된다. sb.countplot(data=데이터 프레임, x= 컬럼명) - 카운트플럿 함수는 데이터 프레임 넣어주고, 컬럼 넣어주면, 거기에 해..
더보기