[PYTHON] Pandas 개념정리
pandas 안의 두가지 파일 존재
1차원 / series
파일 만들때 pd.Series([4, 7, -5, 3], index=['a','b','c','d'])
S 대문자 표기
인덱스를 글자로 사용 가능
변수.values - 값 확인
변수.index - 인덱스 확인
변수.dtype
이름 지정
- s.name - 시리즈에 이름 부여 (이차원 데이터로 만들때 컬럼으로 만들어진다)
- s.index.name - 인덱스에 이름 부여
연산
- 요소별로 연산됨 (=넘피랑 비슷)
- s/10000 이여도 s 값은 안바뀜 s=s/10000 해야 바뀜
인덱싱
-숫자도 글자도 가능
-s[1] ,s['부산']
-s[[0,3,1]] , s[['부산', '대구', '부산']]
-밖 : 인덱스 / 안 : 인덱스 여러개를 묶어 인덱싱함 ?
boolean 인덱싱
-s[ 참 or 거짓 ]
슬라이싱
-숫자는 s[x:y] y-1 까지
-글자는 s["시작":'끝'] 시작부터 끝까지
딕셔너리 객체로 series 생성
data={'서울':99899 , "부산" : 8888888 , "인천":6666666 , "대전 ":4444444 }
변수.notnull() , 변수.[변수.notnull()]
변수.isnull() , 변수.[변수.isnull()]
2차원 / Dataframe2차원 / Dataframe
- 파일 만들때
1. 딕셔너리생성후 (data) > df = pd.DataFrame(data)
ex/ data = { "2015": [99999, 888888 , 777777, 6666666].
"2010" :[55555,444444, 333333, 2222222]
}
2. 데이터, 인덱스, 콜론 따로 만든후 합치기
ex/ df3=pd.DataFrame(data)
df3.index=["키","몸무게","나이"]
df=pd.DataFrame(data)
- 데이터분석, 일반업무 운영시 사용
- 세로 : 인덱스 / 가로 : 컬럼
- 인덱스 이름 추가 / df.index=["서울","부산","인천","대구"]
- df2.T
가로와 세로를 바꿔줌
-값 확인 변수.values
-인덱스확인 df.index
-컬럼확인 df.columns
-열인덱스
-시리즈로 출력 > 1차원데이터로 출력 -df["2015"]
-데이터프레임 (행렬, 2차원) 으로 출력 - df[["2010"]]
-여러개의 데이터를 출력시 대괄호 안에 "키값" 선언하기 -df[["2010","2015"]]
-행 인덱싱
-인덱스기준으로 인덱스 된다
-ex/ df[0:1], df["서울":"인천"]
-함수 / 데이터프레임을 자르는 함수 / 넘피의 방식으로 행을 가지고 올때 사용
-loc()
글자
-iloc()
숫자
-Boolean 인덱싱
-대괄호 안에 연산자랑 입력
-csv파일 불러오기
population_number = pd.read_csv("population_number.csv", encoding="euc-kr")
-값이 숫자, 문자열, 카테고리 값인 경우에 각각의 값이 나온 횟수를 셀 수 있다
-넘피 변수.tail() / 뒤에서 n개 (head 일경우에는 앞에서 n개 )
-판단스 변수.value_counts() /
-NaN을 제외하고 카운팅한다 - population_number.count()
--
import pandas as pd