본문 바로가기

프로그래밍 언어/Python

[Python] 판다스 오퍼레이션: &, |, apply(함수명) 판다스 오퍼레이션 - Pandas Opertations - 엄청 중요! - 데이터는 행이다. Ex) 경력이 3년 이상인 사람의 데이터를 가져오시오 - 경력이 3년 이상인 행 - 결과가 Ture, False로만 나와서, iloc는 사용불가 - loc[행,렬] - 데이터는 행 - df[ df['Years of Experience']>=3 ] ㄴ 이렇게 해도 되지만, 나중에 헷갈리므로, 이렇게 쓰지 않기를 권장한다. Ex) 경력이 3년 이상인 사람의, 이름과 시급 정보를 가져오시오 df.loc[ df['Years of Experience']>=3 , ['Employee Name','Salary [$/h]'] ] - 조건문과 비교 기호는 같다. ㄴ 다만, ‘and’와 ‘or’는 다르게 표기한다. ㄴ and =>.. 더보기
[Python] 판다스 카테고리컬 데이터: nunique(), unique(),Agg(), groupby, count(), value_counts() 카테고리컬 데이터 (Categorical Data) - 반복해서 묶음으로 처리할 수 있는 데이터 - 이메일은 카테고리컬 데이터가 아니다. - 똑같이 만들수 없는 것을 ‘유니크하다’라고 한다. - 카테고리컬 데이터가 정해져 있음 - 고유한 값이 몇개인지 계산: 판다스 데이터프레임 변수명[컬럼명].nunique() ㄴ n은 넘버라는 뜻 - 고유한 값이 무엇인지 추출: 판다스 데이터프레임 변수명[컬럼명].unique() ㄴ 고유한 값을 내놓는다. *주의할 점: nan 도 값에 포함한다. -> nunique()에서도 nan값을 포함한 수치로 계산된다. 카테고리컬 데이터의, 각 데이터별로 묶어서 처리하는 방법 ㄴ '~별로'하면 groupby()함수를 이용하라 ㄴ ‘~에 따른’ 도 groupby() 함수 판다스 데.. 더보기
[Python] 판다스: head(), tail(), describe(), info(), astype(), contains(), isin() - 앞 줄만 간단 읽기: 판다스 데이터프레임 변수명.head() ㄴ 괄호 안에 아무 데이터도 없을 시, 기본 5행을 출력한다. ㄴ 괄호 안에 숫자 입력시, 해당 숫자만큼의 행을 앞에서부터 출력한다. - 뒷 줄만 간단 읽기: 판다스 데이터프레임 변수명.tail() ㄴ 괄호 안에 아무 데이터도 없을 시, 기본 5행을 출력한다. ㄴ 괄호 안에 숫자 입력시, 해당 숫자만큼의 행을 뒤에서부터 출력한다. - e +03 : e를 10으로 보면 된다. 10의 3승이라는 뜻 - 데이터 전반 내용 요약본: 판다스 데이터프레임 변수명.describe() ㄴ 갯수, 평균, 표준편차, 최소값, 최대값 ,사분위를 볼수 있다. ㄴ 50%: 중앙값이라는 뜻 - 문자열에 .describe() 时 ㄴ누가 어떤게 제일 많이 나온다. 등등.. 더보기
[Python] 판다스 Nan 처리법: isna(), dropna(), fillna(), notna() - NaN: Not a Number 라는 뜻. 없는 값 판다스 데이터프레임 변수명.isna() - NaN이 얼마나 있는지 파악하는 용도 - 데이터가 없을 경우 True - 대게는 뒤에 .sum()함수까지 같이 이용해서 총 몇개의 없는 값을 계산해낸다. ㄴ 컴퓨너는 True를 1, False를 0으로 인식하기 때문에 가능. - .sum()의 파라미터를 기입하지 않으면, 디폴트 axis =0으로 설정된다. - 콜롬별로, 행으로 하나하나 내려가면서 계산하기 때문에 axis = 0 판다스 데이터프레임 변수명.notna() - ‘비어있지 않니?’= ‘데이터가 있니’로 물어보는 것 - 데이터가 있는 값만 True - NaN 처리방법 1. 삭제하는 전략 ㄴ 비어있는 것을 없애라: 판다스 데이터프레임 변수명.dropn.. 더보기
[Python] 판다스 데이터 프레임: loc(), iloc(), rename(), append(), drop(), set_index(), reset_index() 레이블과 인덱스 - Accessing and Deleting elements in Pandas Series - 판다스에서 2차원을 데이터 프레임이라고 한다. - 용어 ㄴ 왼쪽 진한 글자가 인덱스 ㄴ 위쪽 진한 글자가 컬럼 ㄴ 안에 있는 데이터는 밸류 ㄴ DataFrame, index, Columns, values - NaN(Not a Number): 해당 항목에 값이 없음을 뜻함 ㄴ NaN은 실제로 우측과 같음: np.nan ㄴ NaN도 데이터에 포함임 데이터 프레임에서 데이터를 억세스 하는 방법 - Accessing Elements in Pandas DataFrames - 중요한부분! import pandas as pd items2 = [{'bikes': 20, 'pants': 30, 'watches'.. 더보기
[Python] 판다스 Pandas 개념: 판다스 시리즈 Pandas Series 데이터 생성하기 import pandas as pd index = ['eggs', 'apples', 'milk', 'bread'] data = [30, 6, 'Yes', 'No'] import numpy as np np.array(data) - 리스트가 있어야 판다스를 만든다. - 판다스의 1차원 데이터를 시리즈라고 부른다. - 여태까지 배웠던 인덱스는? 컴퓨터가 자동으로 메기는 인덱스. - 판다스를 배우는 이제부터는, 판다스를 다룰때는 인덱스! 라는 용어는 왼쪽에 붙어있는 것을 가리킨다!! -> 사람용 인덱스 !! - values: 판다스에서 데이터라는 뜻. 변수명 = pandas.Series(data = 데이터 스트럭쳐, index = 인덱스명) ( index를 입력하지 않을.. 더보기
[Python] LAMBDA EXPRESSIONS, 람다 함수 - Lambda 함수는 anonymous 함수다. 즉 함수 이름이 없다. - 람다 함수는 주로 filter(), map(), reduce() 함수와 함께 사용된다. (혼자 먼저 공부해보자) - 파라미터는 많아도 상관없지만, 연산은 딱 한줄이어야 한다. ㄴ 외국에서 많이 사용한다. ㄴ 사용하는 것을 추천하지 않는다. 그저, 이러한 함수를 마주했을 때 해석 잘하기를 바람. ex) 표시방법 함수이름 = lambda 파라미터 : 파라미터와 관련된 명령문 - 두개의 파라미터를 받을 경우, 콤마로 표시한다. ex) 두개의 숫자를 입력받으면, 두 수의 나머지를 구하는 함수를 만드세요. 더보기
[Python] 함수, 파라미터(parameter), 리턴(return), 디폴트 파라미터(default Parameter) - 여태껏 우리는 함수를 이용했다 = 함수를 콜(call) 했다. = function call - 따라서, 어딘가에는 함수의 실체 (함수의 정의, definition)가 있다. 함수란? - 재사용되는 코드 블럭 - Data or arguments가 전달되고, 결과가 return 된다. - 프로그래밍 하다가, 반복되거나 재사용되는 코드 블럭이 있으면, 이를 함수로 만들면 된다. - 남들이 이렇게 재사용 잘 되는 함수들을 미리 만들어 놓은것들도 많다. 그것이 라이브러리다. def fahr_to_kelvin(temp): result = (temp-32) * (5/9)+ 273.15 return result -> def 이걸 함수의 정의라고 한다. -> def 뒤에는 함수의 이름 -> 함수의 이름 뒤에는 괄호안.. 더보기