우노
[Spark] RDD 데이터를 saveAsTextFile 을 사용해 S3 에 저장하기 본문
RDD 데이터는 설정 된 RDD 파티션 개수 만큼의 파일로 나뉘어 S3 경로에 저장된다.
outputRDD.saveAsTextFile("s3://bucket/path/to/output/")
coalesce 함수를 사용해 RDD 파티션을 원하는 개수 만큼의 파일로 합친 뒤, s3 경로에 저장할 수 있다.
outputRDD.coalesce(1).saveAsTextFile("s3://bucket/path/to/output/")
'Data > Spark' 카테고리의 다른 글
[Spark] Matrix의 Row를 전체 Vertex 개수로 두고 Col 기준으로 나누기 ( 중복 비허용 ) (0) | 2020.10.11 |
---|---|
[Spark] Matrix의 Row를 전체 Vertex 개수로 두고 Col 기준으로 나누기 ( 중복 허용 ) (0) | 2020.10.10 |
[Spark] RDD의 내용을 출력하는 방법 (0) | 2020.10.10 |
[Spark] Spark Executor 설정 (2) | 2020.10.04 |
[Spark] spark.executor.heartbeatInterval 오류 (0) | 2020.07.27 |
Comments