반응형
Concatenating and merging
- concat() 괄호 안에다가, 리스트를 넣는다. 두개 이상의 데이터가 필요하기 때문
- 가로로 해놓는 건, axis 값을 주면 된다.
import pandas as pd df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3]) df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7]) df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 'B': ['B8', 'B9', 'B10', 'B11'], 'C': ['C8', 'C9', 'C10', 'C11'], 'D': ['D8', 'D9', 'D10', 'D11']}, index=[8, 9, 10, 11]) pd.concat([df1,df2,df3]) |
-> pd.concat([df1,df2,df3])
# 데이터 프레임 두 개를 연결고리가 되는 컬럼으로 합치려고 할 때!
ㄴ pd.merge() 함수 사용
pd.merge(첫번째 데이터프레임, 두번째 데이터프레임, on = 연결고리 컬럼명)
# merge는 데이터프레임 두개만 가지고 하는 것!
ㄴ 첫번째 데이터프레임을 left라고 하고,
ㄴ두번재 데이터프레임을 right라고 한다.
ㄴ on 뒤에 두개 데이터가 공통으로 가지고 있는 컬럼을 적자. 반드시 적어주자
ㄴ 둘 다 가지고 있는 데이터를 가지고 연결시키는 것
- 데이터베이스에서 그대로 사용되는 개념임.
pd.merge(df_all,df_salary, on = 'Employee ID') |
-> pd.merge(df_all,df_salary, on = 'Employee ID')
(샐러리가 없는 'Employee ID'의 6은 합쳐지지 않았다)
- 둘 다 합쳐라 하면, 두개의 교집합만 계산한다. 없는 부분을 빼버린다.
ㄴ how: 어떻게 합칠꺼냐,
ㄴ left 괄호안에 왼쪽 데이터
- 데이터베이스에서 그대로 사용되는 개념임.
# 직원은 모두 나오고, 샐러리 데이터가 없으면, 없다고 나오게 하라. pd.merge(df_all,df_salary, on = 'Employee ID', how ='left') |
반응형
'프로그래밍 언어 > Python' 카테고리의 다른 글
[Python] Bar Chart 바 차트:sb.countplot(), sb.color_palette(), value_counts(), plt.xticks(), plt.title(), plt.legend() (0) | 2022.05.05 |
---|---|
[Python] 데이터 시각화: 개념,plt.plot(x,y), plt.show(), plt.savefig() (0) | 2022.05.05 |
[Python] 넘파이 Boolean 연산: & | (0) | 2022.05.04 |
[Python] 넘파이 슬라이싱, 중복제거, 연산: [ : ], copy(), unique() (0) | 2022.05.04 |
[Python] 넘파이 어세싱, 삭제, 추가: [ ], delete(), append(), insert() (0) | 2022.05.04 |