Dataset의 Training용과 Test 용: X_train,X_test,y_train,y_test
Dataset을 Training용과 Test 용으로 나눈다. X_train,X_test,y_train,y_test = train_test_split(X,y, test_size = 0.2, random_state=3 ) ㄴ 파라미터 순서 바뀌면 안된다. ㄴ 전세계 변수명 규칙이 같다 X_train ㄴ 넘파이 어레이 4개, y_train ㄴ 첫번째 데이터는 1이다. 두번째 데이터는 0이다. X_test: X 시험용 y_test: y 시험용 random_state: ㄴ random.seed()와 random_state는 같은 의미이다. ㄴ 랜덤으로 나오는 패턴을 같다라는 뜻 = 똑같은 환경으로 개발할 수 있다라는 뜻 X_train,X_test, y_train, y_test = train_test_split(X..
더보기
Nan 처리, 문자열 처리(레이블/원핫 인코딩): LabelEncoder,OneHotEncoder, ColumnTransformer
import numpy as np import matplotlib.pyplot as plt import pandas as pd df = pd.read_csv('data/Data.csv') ㄴ 이 데이터로 내가 뭘 할건데? ㄴ 위 데이터로 우리 쇼핑몰에서 물건을 살 것 같냐, 못살것 같냐라는 구매여부 인공지능을 만들면 될 것 같다. Nan 처리 ㄴ 학습을 시킬 때, 바로 Nan이 있으면 바로 에러가 나온다. ㄴ 문제를 확인하면, NaN 있는지 확인해야한다. ㄴ 우선적으로 Nan을 처리해야한다. ㄴ 처리방법은: 삭제하거나, 다른 것으로 채우거나. X, Y 데이터 분리: 즉 학습할 변수와 레이블링 변수로 분리 ㄴ 내가 예측하려고 하는 컬럼은 Purchased 컬럼, 그럼 이걸 y, ㄴ 나머지는 x인데, 그리고..
더보기