판다스 오퍼레이션
- Pandas Opertations
- 엄청 중요!
- 데이터는 행이다.
Ex) 경력이 3년 이상인 사람의 데이터를 가져오시오
- 경력이 3년 이상인 행
- 결과가 Ture, False로만 나와서, iloc는 사용불가
- loc[행,렬]
- 데이터는 행
- df[ df['Years of Experience']>=3 ]
ㄴ 이렇게 해도 되지만, 나중에 헷갈리므로, 이렇게 쓰지 않기를 권장한다.
Ex) 경력이 3년 이상인 사람의, 이름과 시급 정보를 가져오시오
df.loc[ df['Years of Experience']>=3 , ['Employee Name','Salary [$/h]'] ]
- 조건문과 비교 기호는 같다.
ㄴ 다만, ‘and’와 ‘or’는 다르게 표기한다.
ㄴ and => () & ()
ㄴ or => () | ()
Ex) 경력이 3년 이상이고, 8년 이하 사람의 데이터를 가져오시오.
Ex) 시급이 가장 높은 사람은 누구인가?
판다스 오퍼레이션: 함수 이용
- Applying Functions
Ex) 직원 이름이 몇글자 인지, 글자수를 세어서, 새로운 컬럼 length 컬럼에 저장하시오.
판다스 데이터프레임 변수명[컬럼명].str.함수
ㄴ 데이터는 판다스 시리즈 형태이기 때문에, 스트링으로 변환해서 적용해야한다.
또 다른 방법:
판다스 데이터프레임 변수명[컬럼명].apply(함수명)
ㄴ Emplyee Name의 컬럼의 데이터를 하나씩 가져와서, len함수에
적용해라!
ㄴ 함수 안의 파라미터에 데이터를 입력하라!! 라는 뜻!!
ㄴ apply() 함수 안에 파라미터에는 함수명만 써준다.
Ex) 시급이 30이상이면, A그룹,그렇지 않으면 B그룹이라고 구분할 것. 따라서, 새로운 컬럼 group 컬럼을 만들어서, A나 B값으로 저장하시오.