오늘의 인기 글
최근 글
최근 댓글
Today
Total
12-30 13:56
관리 메뉴

우노

[Spark] ML 패키지와 MLlib 패키지의 차이 본문

Data/Spark

[Spark] ML 패키지와 MLlib 패키지의 차이

운호(Noah) 2021. 11. 2. 13:32

Spark ML 패키지와 MLlib 패키지의 차이

  • ML 패키지는 DataFrame 기반의 머신러닝 지원 패키지이다.
  • MLlib 패키지는 RDD 기반의 머신러닝 지원 패키지이다.
  • Spark ML 의 정식 명칭은 'MLlib DataFrame-based API' 이며,
  • DataFrame 이 RDD 보다 Spark 에서의 로딩, 실행 계획 최적화, 언어 간의 API 통일성에 있어 장점이 있기 때문에
  • ML 패키지가 Spark 2 버전 기준, 머신 러닝을 위한 Primary API 이다.

Spark ML, MLlib 패키지 제공 기능

  • ML Algorithms
    • Classification, Regression, Clustering, Collaborative filtering 등의 머신러닝 알고리즘 제공
  • Featurization
    • Feature 추출 및 변환, 차원 축소 등의 기능 제공
  • Pipelines
    • 여러 알고리즘을 하나의 Pipeline 에 쉽게 결합하기 위한 표준화된 API 제공
  • Persistence
    • 알고리즘, Pipeline, 모델을 저장하고 불러오는 기능 제공
  • Utilities
    • 선형 대수, 통계 및 데이터 핸들링 기능 제공

참고

Comments