오늘의 인기 글
최근 글
최근 댓글
Today
Total
05-12 00:01
관리 메뉴

우노

[Spark] RDD 데이터를 saveAsTextFile 을 사용해 S3 에 저장하기 본문

Data/Spark

[Spark] RDD 데이터를 saveAsTextFile 을 사용해 S3 에 저장하기

운호(Noah) 2020. 10. 10. 22:46
  • RDD 데이터는 설정 된 RDD 파티션 개수 만큼의 파일로 나뉘어 S3 경로에 저장된다.

      outputRDD.saveAsTextFile("s3://bucket/path/to/output/")
  • coalesce 함수를 사용해 RDD 파티션을 원하는 개수 만큼의 파일로 합친 뒤, s3 경로에 저장할 수 있다.

      outputRDD.coalesce(1).saveAsTextFile("s3://bucket/path/to/output/")
Comments