[PYTHON] Pandas 개념정리

동혼 2019. 6. 28. 19:46

pandas 안의 두가지 파일 존재

1차원 / series

    파일 만들때 pd.Series([4, 7, -5, 3], index=['a','b','c','d'])
    S 대문자 표기
    인덱스를 글자로 사용 가능
    변수.values - 값 확인
    변수.index - 인덱스 확인
    변수.dtype
    이름 지정
        - s.name - 시리즈에 이름 부여 (이차원 데이터로 만들때 컬럼으로 만들어진다)
        - s.index.name - 인덱스에 이름 부여
    연산
        - 요소별로 연산됨 (=넘피랑 비슷)
        - s/10000 이여도 s 값은 안바뀜  s=s/10000 해야 바뀜
    인덱싱
        -숫자도 글자도 가능
            -s[1] ,s['부산']
            -s[[0,3,1]] , s[['부산', '대구', '부산']]
            -밖 : 인덱스 / 안 : 인덱스 여러개를 묶어 인덱싱함 ?

    boolean 인덱싱
        -s[ 참 or 거짓 ]
    슬라이싱
        -숫자는 s[x:y] y-1 까지
        -글자는 s["시작":'끝'] 시작부터 끝까지
    딕셔너리 객체로 series 생성
        data={'서울':99899 , "부산" : 8888888 , "인천":6666666 , "대전 ":4444444 }
    변수.notnull()  ,  변수.[변수.notnull()]
    변수.isnull()  ,  변수.[변수.isnull()]

2차원 / Dataframe2차원 / Dataframe
    - 파일 만들때
        1. 딕셔너리생성후 (data) > df = pd.DataFrame(data)
            ex/ data = { "2015": [99999, 888888 , 777777, 6666666].
                    "2010" :[55555,444444, 333333, 2222222]
                  }
        2. 데이터, 인덱스, 콜론 따로 만든후 합치기
            ex/ df3=pd.DataFrame(data)
                df3.index=["키","몸무게","나이"]

        df=pd.DataFrame(data)
    - 데이터분석, 일반업무 운영시 사용
    - 세로 : 인덱스 / 가로 : 컬럼
    - 인덱스 이름 추가 / df.index=["서울","부산","인천","대구"]
    - df2.T
        가로와 세로를 바꿔줌
    -값 확인   변수.values
    -인덱스확인    df.index
    -컬럼확인     df.columns

    -열인덱스
        -시리즈로 출력 > 1차원데이터로 출력 -df["2015"]
        -데이터프레임 (행렬, 2차원) 으로 출력 - df[["2010"]]
        -여러개의 데이터를 출력시 대괄호 안에 "키값" 선언하기 -df[["2010","2015"]]
    -행 인덱싱
        -인덱스기준으로 인덱스 된다
        -ex/ df[0:1], df["서울":"인천"]
    -함수 / 데이터프레임을 자르는 함수 / 넘피의 방식으로 행을 가지고 올때 사용
        -loc()
            글자
        -iloc()
            숫자
    -Boolean 인덱싱
        -대괄호 안에 연산자랑 입력
    -csv파일 불러오기
        population_number = pd.read_csv("population_number.csv", encoding="euc-kr")
    -값이 숫자, 문자열, 카테고리 값인 경우에 각각의 값이 나온 횟수를 셀 수 있다
        -넘피 변수.tail() / 뒤에서 n개 (head 일경우에는 앞에서 n개 )
        -판단스 변수.value_counts() /
    -NaN을 제외하고 카운팅한다 - population_number.count()

불러오는 중입니다...

import pandas as pd