[Python] 노멀라이징, Feature Scaling: StandardScaler(), MinMaxScaler()
노멀라이징: ㄴ 노멀라이징: 데이터 노멀라이징 하는 이유는, 각각의 레인지를 통일하여, 해석하기 쉽게 하기 위함입니다. - 학습에 들어갈 데이터는 사람이 만든다. 학습은 컴퓨터가 한다. - 머신 러닝에 제일 많이 쓰이는 것이, 제일 많이 쓰는것이 퍼센테이지, - “~률”이 범위를 통일 시켜주는 것, 0에서 100으로 통일 ㄴ 각 건수에 대해서는 범위가 각 다르기 때문에(1~10과 100과 1000) 절대 비교가 불가능하다. ㄴ 인공지능도 범위가 통일되어있지 않은 상태에서 학습을 시키면, 학습이 안된다. - 인공지능에서는 특징이라고 하고, - 데이터 분석에서는 컬럼이라고 한다. - 학습을 시킬 때는 퍼센테이지가 좋지만, 이는 사람이 보기 편하기 위함이라, 이를 컴퓨터에 응용하면, 계산을 잘 못한다. - F..
더보기
[Python] 피벗 테이블, Pivot Table: pd.pivot_table()
피벗 테이블: pd.pivot_table() ㄴ피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. ㄴ인덱스는 중복이 있으면 안된다. ㄴ따라서, 피봇테이블에 네임 컬럼을 인덱스로 만들겠다는 건 , 중복을 없앤다는 뜻 pd.pivot_table(데이터프레임, index=[ 컬럼명 ], ) ㄴ 피봇 테이블은 수치 데이터만을 (문자데이터는 처리할 수 없으니까) 하나로 합친다. ㄴ 기본적으로 수치데이터를 다 평균으로 해서 계산을 한다. pd.pivot_table(데이터프레임, index=[ 컬럼명 ], aggfunc = np.sum) ㄴ 평균이 아니라, 합으로 계산. ㄴ 넘파이의 합에서 가져온다. pd.pivot_table(df,index=['Name'],aggfunc = np.max) ㄴ 이건 비추, 문자열도 가져온..
더보기