우노
[Spark] ML 패키지와 MLlib 패키지의 차이 본문
Spark ML 패키지와 MLlib 패키지의 차이
- ML 패키지는 DataFrame 기반의 머신러닝 지원 패키지이다.
- MLlib 패키지는 RDD 기반의 머신러닝 지원 패키지이다.
- Spark ML 의 정식 명칭은 'MLlib DataFrame-based API' 이며,
- DataFrame 이 RDD 보다 Spark 에서의 로딩, 실행 계획 최적화, 언어 간의 API 통일성에 있어 장점이 있기 때문에
- ML 패키지가 Spark 2 버전 기준, 머신 러닝을 위한 Primary API 이다.
Spark ML, MLlib 패키지 제공 기능
- ML Algorithms
- Classification, Regression, Clustering, Collaborative filtering 등의 머신러닝 알고리즘 제공
- Featurization
- Feature 추출 및 변환, 차원 축소 등의 기능 제공
- Pipelines
- 여러 알고리즘을 하나의 Pipeline 에 쉽게 결합하기 위한 표준화된 API 제공
- Persistence
- 알고리즘, Pipeline, 모델을 저장하고 불러오는 기능 제공
- Utilities
- 선형 대수, 통계 및 데이터 핸들링 기능 제공
참고
'Data > Spark' 카테고리의 다른 글
[Spark] Breeze CSCMatrix Multiply 함수 구현 (메모리 동적 할당) (0) | 2022.03.17 |
---|---|
[Spark] Breeze CSCMatrix Multiply 함수 구현 (메모리 정적 할당) (0) | 2022.03.17 |
[Spark] Spark BlockMatrix Multiply 방법 (0) | 2021.08.31 |
[Spark] sc.textFile minPartitions 할당 (0) | 2021.08.26 |
[Spark] Yarn log 확인 (0) | 2021.08.24 |
Comments