본문 바로가기

프로그래밍 언어/Python

[Python] 판다스, 데이터프레임 합치기: concat(), merge()

반응형

Concatenating and merging

- concat() 괄호 안에다가, 리스트를 넣는다. 두개 이상의 데이터가 필요하기 때문

- 가로로 해놓는 건, axis 값을 주면 된다.

import pandas as pd
 
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                 'B': ['B0', 'B1', 'B2', 'B3'],
                'C': ['C0', 'C1', 'C2', 'C3'],
                 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                 'B': ['B4', 'B5', 'B6', 'B7'],
                 'C': ['C4', 'C5', 'C6', 'C7'],
                 'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])
 
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                 'B': ['B8', 'B9', 'B10', 'B11'],
                 'C': ['C8', 'C9', 'C10', 'C11'],
                 'D': ['D8', 'D9', 'D10', 'D11']}, index=[8, 9, 10, 11])
 
pd.concat([df1,df2,df3])

-> pd.concat([df1,df2,df3])

 

 

# 데이터 프레임 두 개를 연결고리가 되는 컬럼으로 합치려고 할 때!

ㄴ pd.merge() 함수 사용

pd.merge(첫번째 데이터프레임, 두번째 데이터프레임, on = 연결고리 컬럼명)

# merge는 데이터프레임 두개만 가지고 하는 것!

ㄴ 첫번째 데이터프레임을 left라고 하고,

ㄴ두번재 데이터프레임을 right라고 한다.

ㄴ on 뒤에 두개 데이터가 공통으로 가지고 있는 컬럼을 적자. 반드시 적어주자

ㄴ 둘 다 가지고 있는 데이터를 가지고 연결시키는 것

 

- 데이터베이스에서 그대로 사용되는 개념임.

pd.merge(df_all,df_salary, on = 'Employee ID')

 

-> pd.merge(df_all,df_salary, on = 'Employee ID') 

(샐러리가 없는 'Employee ID'의 6은 합쳐지지 않았다)

 

- 둘 다 합쳐라 하면, 두개의 교집합만 계산한다. 없는 부분을 빼버린다.

how: 어떻게 합칠꺼냐,

ㄴ left 괄호안에 왼쪽 데이터

- 데이터베이스에서 그대로 사용되는 개념임.

# 직원은 모두 나오고, 샐러리 데이터가 없으면, 없다고 나오게 하라.
 
pd.merge(df_all,df_salary, on = 'Employee ID', how ='left')

반응형