본문 바로가기

Python/Pandas

(6)
Pandas_06. 타이타닉 In [1]: import numpy as np import pandas as pd csv 데이타 파일 읽어오기¶ 데이타프레임이름 = pd.read_csv(dataFile경로, index_col='인덱스로사용할컬럼') 데이타프레임이름.shape : 구조 확인 In [49]: train = pd.read_csv('data/train.csv',index_col='PassengerId') train.shape Out[49]: (891, 11) 데이타프레임에서 앞과 뒤에 갯수 정해서 표시하기¶ 데이타프레임명.head() : 5개 데이타프레임명.tail() : 5개 데이타프레임명.head(숫자) 데이타프레임명.tail(숫자) In [9]: train.tail() Out[9]: Surv..
Pandas_05 In [2]: import numpy as np import pandas as pd 행또는 열 별로 합 구하기¶ df.sum(axis=0) df.sum(axis=1) df[컬럼명].sum(axis=0) df.loc[인덱스명].sum() skipna = False 결측치가 있는 데이타프레임 생성하기¶ In [3]: data = [[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]] In [4]: df = pd.DataFrame(data, columns=["one","two"], index=["a", "b", "c", "d"]) df Out[4]: one two a 1.40 NaN b 7.10 -4.5 c NaN NaN d 0.75 -1.3 df.sum(..
Pandas_04 In [2]: import numpy as np import pandas as pd 행또는 열 별로 합 구하기¶ df.sum(axis=0) df.sum(axis=1) df[컬럼명].sum(axis=0) df.loc[인덱스명].sum() skipna = False 결측치가 있는 데이타프레임 생성하기¶ In [3]: data = [[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]] In [4]: df = pd.DataFrame(data, columns=["one","two"], index=["a", "b", "c", "d"]) df Out[4]: one two a 1.40 NaN b 7.10 -4.5 c NaN NaN d 0.75 -1.3 df.sum(..
Pandas_03 In [3]: import numpy as np import pandas as pd Dataframe Boolean Index¶ 데이타프레임 인덱스시 사용됨 마스크(Mask)라고도 함 조건에 맞으면 결과값이 True/False 형태의 Boolean으로 표시 df.loc [ df[ 컬럼인덱스] 비교연산자 ] df.loc [ df[ 행인덱스] 비교연산자 ] 다중 조건시 논리 연산자 사용 In [42]: data = { "year":[2014, 2015, 2016, 2015, 2017,2013] ,"name":['Haidi', 'Haidi', 'Haidi', 'Charles', 'Charles', 'Hayoung'] , "p..
Pandas_02 In [2]: import numpy as np import pandas as pd DataFrame 생성하기¶ 데이타프레임이름 = pd.DataFrame(딕셔너리리스트) 딕셔너리 리스트 : 딕셔너리 구조인데 값이 리스트인 구조 데이타프레임을 딕셔너리 리스트로 만들면 키는 컬럼명으로 지정된다. { 키1:[리스트1], 키2:[리스트2] ... } 딕셔너리 리스트 생성하기¶ { 키1:[값1, 값2, 값3 ...], 키2:[값1, 값2, 값3 ...] ... } In [5]: data = { "name":['Elise', 'Julia', 'Jhon', 'Charles', 'Charles'], "year":[2014, 2015, 2016, ..
Pandas_01 판다스(Pandas) 란?¶ 데이터 처리와 분석을 위한 파이썬 라이브러리 파이썬계의 엑셀 http://pandas.pydata.org 아나콘다 설치시 자동으로 설치 외부모듈이라서 임포트는? import pandas as pd Pandas의 자료구조¶ 시리즈(Series) : 리스트와 딕셔너리 두가지의 장점을 섞어놓은 듯한 자료구조 데이타프레임(DataFrame) : Row와 Column으로 이뤄진 2차원 형태의 자료구조. 시리즈(Series)의 결합체 pandas, numpy import¶ In [2]: import numpy as np import pandas as pd pandas 버전 확인하기¶ In [3]: pd.__version__ Out[3]: '0.24.2' Series 만들기..