본문 바로가기

Python-머신러닝

[Python] 머신러닝 개념

반응형

머신러닝

- 용어 및 설명 참고: https://www.youtube.com/watch?v=KDrys0OnVho

 

인공지능을 머신러닝 시킨다는 뜻은, 

-> 컴퓨터가 방정식을 채우고, 컴퓨터가 미지수를 데이터로 찾아가는 과정임.

-> 데이터가 적으면 미지수를 어설프게 찾아낸다.

-> 데이터가 많으면 미지수의 정교하게 찾아낸다 = 정확도가 올라간다.

 

인공지능을 왜 만드냐

무언가를 예측하거나, 예측한 것을 이용해서 회사는 수익을 더 극대화 하기 위함.

 

- Supervised, Unsupervised

Unsupervised Learning

- 그룹정보를 불러오는 방법, 정답은 나도 모르고 컴퓨터도 모른다.

- 비슷한 부류/성향의 고객들로 묶어달라.

- 컴퓨터가 계산해서, 그룹정보라는 컬럼을 새로 만든다. 

 

supervised Learning

우리는 Iris꽃의 꽃잎의 길이와 넓이, 꽃받침의 길이와 넓이 데이터를 가지고 있다. 이 데이터들을 가지고, Iris 꽃 (붓꽃) 의 품종을 분류할 수 있는 분류기를 만든다.
따라서, 새로운 꽃잎의 길이와 넓이, 꽃받침의 길이와 넓이에 대한 데이터를 입력하면, 이 붓꽃이 어떤 품종인지 분석이 가능하다.
이렇게 분류할 수 있는 분류기(classifier) 를 만들기 위해서는 데이터가 필요하며,
학습을 하기 위해서는, 데이터 뿐만 아니라, 품종이라는 결과를 학습 시키기 위해서, 데이터와 매핑된 품종 데이터도 함께 필요하다.
즉, 품종에 대한 데이터를 Lable 이라고 한다. 즉 이러한 레이블이 있는 데이터를 학습시키는 것이 지도학습이다.

레이블이 있는 데이터를 학습시키는 것이 지도학습이다.

 

Regression(회귀) 과 Classification(분류)

Regression 

수치 예측

- 예 ) 어떤 사람의 교육수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것

- 예 ) 옥수수 농장에서 전년도 수확량과 날씨, 고용 인원수 등으로 올해 수확량을 예측하는 것

 

Classifiation

- 예) 웹사이트가 어떤 언어로 되어있는가

- 예) 사진을 보고, 고양이 인지 강아지 인지, 소인지 분류

 

Training 과 Test

- 훈련이란, 데이터를 입력하고, 그 결과인 레이블이 나오도록 만드는 과정.

ㄴ 즉, 데이터와 레이블을 통해 학습을 시키는 과정

- 테스트란, 학습이 완료된 분류기에, 학습에 사용하지 않은 데이터를 넣어서, 정답을 맞추는지 확인하는 작업

 

sklearn 설치

ㄴ 아나콘다에 설치되어 있으며, 만약 설치가 안되었으면 다음으로 설치함

ㄴ $ conda install -c conda-forge scikit-learn

 

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data/Data.csv')

 

 

ㄴ 이 데이터로 내가 뭘 할건데?

ㄴ 위 데이터로 우리 쇼핑몰에서 물건을 살 것 같냐, 못살것 같냐라는 구매여부 인공지능을 만들면 될 것 같다. 

 

반응형