본문 바로가기

프로그래밍 언어/Python

[Python]판다스 데이터 정렬, 저장/불러오기:sort_values(), pd.read_csv(), pd,read_excel(), pd.to_csv()

반응형

 데이터 정렬

- Sorting and Ordering

 

- 판다스 데이터프레임 변수명[컬럼명]. sort_values(컬럼명)

ㄴ 기본적으로 오름차순으로 설정이 되어있다.

ㄴ ex) 경력을 오름차순으로 정렬

 

- 내림차순: ascending=False

 

Ex) 이름으로 먼저 정리하고, 이름이 같을 경우에는, 경력으로 정렬

 

Ex) 이름과 경력으로 정렬하되, 이름은 내림차순, 경력은 오름차순으로 정렬!

 

 

csv로 저장/불러오기/처리

- csv :  comma separated values => 데이터는 콤마로 구분합니다.

- csv의 규칙! 맨 위의 행은, 컬럼명을 적어줍니다.

 

- 불러오기: df = pd.read_csv('my_test.csv')

ㄴ unnamed 없애는 방법: 

방법1 (불러오고나서): 
df.drop('Unnamed: 0',axis =1)

방법2 (슬라이싱): 
df.loc[:,"country": ]

방법3: 
df = pd.read_csv('data/winemag-data_first150k.csv', index_col= 'Unnamed: 0')
ㄴ  col = column

방법4: (방법3과 비슷하다) 
pd.read_csv('data/winemag-data_first150k.csv', index_col= 0)

ex)

df = pd.read_csv(DataUrl, encoding='euc-kr')

ㄴ encoding 를 따로 지정할 수도 있음.

 

ex) 

df = pd.read_csv('data/age.csv',encoding = 'cp949',thousands= ',')

ㄴ 숫자 사이에 ,(콤마) 있는 걸 문자열이 아니라 숫자로 처리하겠다는 뜻

ㄴ 천 단위에 콤마 있다라는 뜻: thousands= ','

 

ex) 

pop_Seoul = pd.read_excel('data/population_in_Seoul.xls',

                         header=2,

                         usecols='B, D, G, J, N')

header = 0,1,2 헤더를 3개로 사용하겠다.

usecol = 엑셀 파일의 보여지는 셀 컬럼을 이용하겠다는 뜻

 

- 저장: df.to_csv('my_test2.csv')

ㄴ 저장경로는 지금 작업하고 있는 파일과 같은 폴더에 위치한다.

 

반응형