본문 바로가기

Python-머신러닝

Count Vectorizing 카운트 벡터라이징: CountVectorizer()

반응형

- 문장을 원핫인코딩의 형식으로 하나씩 갯수를 표시하는 것을 count라고 하고

- 문자를 숫자로 바꾸는 걸 vectorizing이라고 함.

-> 이 두개를 합쳐서 count vectorizing이라고 함

 

규칙: 

1. 모든 리뷰에 나온 단어를 뽑아서 알파벳 순서로 정렬

2. 정렬한 순서대로 컬럼을 나눈다.

3. 해당 리뷰에 쓰인 위치에 나온 단어만, 

 

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
count_vec= vec.fit_transform(df['verified_reviews'])

ㄴ 행렬

 

vec.fit_transform()

ㄴ fit : 모든 리뷰의 단어를 다 뽑아서 정렬해서 컬럼으로 뽑아라.

ㄴ transform: 컬럼 다 뽑았으면, 쓰인 위치별로 숫자로 표시 해라

 

 

review_array = count_vec.toarray()

ㄴ 넘파이 형식으로 바꿔준다. 

 

- 넘파이의 행렬의 데이터에 억세스 하는 방법

 

ㄴ 위의 문장을 숫자로 바꾼 것.

 

- 데이터 비주얼라이징

ㄴ 리뷰 길이와 별점의 관계를 히트맵으로 나타내세요.

 

1. apply 함수 이용방법

ㄴ apply안에 적을 함수 안에, 적용하라.

df['verified_reviews'].apply(len)

 

2. 문자열로 인식하는 방법

df['len'] = df['verified_reviews'].str.len()

 

sb.scatterplot(data = df, x= 'len', y ='rating')
plt.show()

 

plt.hist2d(data = df, x = 'len',y = 'rating', cmin = 0.5, cmap = 'viridis_r')
plt.colorbar()
plt.show()

 

df[['len','rating']].corr()



반응형