오늘의 인기 글
최근 글
최근 댓글
Today
Total
01-05 00:13
관리 메뉴

우노

[Python] Pandas 개념 및 DataFrame 생성 방법 본문

Language/Python

[Python] Pandas 개념 및 DataFrame 생성 방법

운호(Noah) 2020. 7. 24. 14:21

Pandas 란?

  • Pandas는 파이썬에서 사용할 수 있는 데이터분석 라이브러리로,
  • 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있으며
  • 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다.

Pandas 데이터구조

  • Pandas는 3종류(Series, DataFrame, Panel)의 데이터구조를 제공하며
  • 주로 Series(1차원)와 Data Frame(2차원)이 사용합니다.

DataFrame 구조

  • DataFrame은 위 그림과 같이 Row, Column, Series 들로 구성되어 있습니다.
  • 여기서, Series는 각 Column에 있는 데이터들을 의미합니다.

DataFrame 기본 형태

import pandas as pd

df = pd.DataFrame(data, index, columns, dtype, copy)
  • data - DataFrame을 생성할 데이터
  • index - 각 Row에 대해 Label을 추가 ( 옵션 )
  • columns - 각 Column에 대해 Label을 추가 ( 옵션 )
  • dtype - 각 Column의 데이터 타입 명시 ( 옵션 )

DataFrame 생성 예

  • 1) List를 사용한 DataFrame 생성

      import pandas as pd
    
      data = [['Choi',22],['Kim',48],['Joo',32]]
    
      df = pd.DataFrame(data, columns=['Name','Age'])
    
      print(df)
      #   Name  Age
      #0  Choi   22
      #1   Kim   48
      #2   Joo   32
  • 2) dictionary를 사용한 DataFrame 생성

      import pandas as pd
    
      data = {'Name' : ['Choi','Kim','Joo'],'Age':[22,48,32]}
    
      df = pd.DataFrame(data)
    
      print(df)
      #   Name  Age
      #0  Choi   22
      #1   Kim   48
      #2   Joo   32
  • 3) index와 columns을 사용한 DataFrame 생성

      import pandas as pd
    
      data = [{'a':1, 'b':2},{'a':5, 'b':10, 'c':20}]
    
      df1 = pd.DataFrame(data, index = ['first','second'], columns=['a','b'])
    
      print(df1)
      #        a   b
      #first   1   2
      #second  5  10
  • 4) numpy를 사용한 DataFrame 생성

      import numpy as np
    
      data = np.array([[1,2,3],[4,5,6]])
    
      df = pd.DataFrame(data, columns=['col1','col2','col3'])
    
      print(df)
      #     col1  col2  col3
      #0     1     2     3
      #1     4     5     6
Comments