우노
[Python] Pandas 개념 및 DataFrame 생성 방법 본문
Pandas 란?
- Pandas는 파이썬에서 사용할 수 있는 데이터분석 라이브러리로,
- 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있으며
- 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다.
Pandas 데이터구조
- Pandas는 3종류(Series, DataFrame, Panel)의 데이터구조를 제공하며
- 주로 Series(1차원)와 Data Frame(2차원)이 사용합니다.
DataFrame 구조
- DataFrame은 위 그림과 같이 Row, Column, Series 들로 구성되어 있습니다.
- 여기서, Series는 각 Column에 있는 데이터들을 의미합니다.
DataFrame 기본 형태
import pandas as pd
df = pd.DataFrame(data, index, columns, dtype, copy)
- data - DataFrame을 생성할 데이터
- index - 각 Row에 대해 Label을 추가 ( 옵션 )
- columns - 각 Column에 대해 Label을 추가 ( 옵션 )
- dtype - 각 Column의 데이터 타입 명시 ( 옵션 )
DataFrame 생성 예
1) List를 사용한 DataFrame 생성
import pandas as pd data = [['Choi',22],['Kim',48],['Joo',32]] df = pd.DataFrame(data, columns=['Name','Age']) print(df) # Name Age #0 Choi 22 #1 Kim 48 #2 Joo 32
2) dictionary를 사용한 DataFrame 생성
import pandas as pd data = {'Name' : ['Choi','Kim','Joo'],'Age':[22,48,32]} df = pd.DataFrame(data) print(df) # Name Age #0 Choi 22 #1 Kim 48 #2 Joo 32
3) index와 columns을 사용한 DataFrame 생성
import pandas as pd data = [{'a':1, 'b':2},{'a':5, 'b':10, 'c':20}] df1 = pd.DataFrame(data, index = ['first','second'], columns=['a','b']) print(df1) # a b #first 1 2 #second 5 10
4) numpy를 사용한 DataFrame 생성
import numpy as np data = np.array([[1,2,3],[4,5,6]]) df = pd.DataFrame(data, columns=['col1','col2','col3']) print(df) # col1 col2 col3 #0 1 2 3 #1 4 5 6
'Language > Python' 카테고리의 다른 글
[Python] Pandas DataFrame 행,열 삭제 (0) | 2020.07.28 |
---|---|
[Python] Numpy와 Pandas를 사용한 데이터셋 생성 (0) | 2020.07.25 |
[Python] Numpy 개념 및 배열 생성 방법 (0) | 2020.07.24 |
[Python] 주피터 노트북 단축키 정리 (0) | 2020.07.24 |
[Python] 라이브러리, 패키지, 모듈의 차이 (0) | 2020.07.09 |
Comments