[Spark] RDD 데이터를 saveAsTextFile 을 사용해 S3 에 저장하기

오늘의 인기 글

최근 글

최근 댓글

07-10 00:07

관리 메뉴

우노

Data/Spark

운호(Noah) 2020. 10. 10. 22:46

RDD 데이터는 설정 된 RDD 파티션 개수 만큼의 파일로 나뉘어 S3 경로에 저장된다.
```
  outputRDD.saveAsTextFile("s3://bucket/path/to/output/")
```
coalesce 함수를 사용해 RDD 파티션을 원하는 개수 만큼의 파일로 합친 뒤, s3 경로에 저장할 수 있다.
```
  outputRDD.coalesce(1).saveAsTextFile("s3://bucket/path/to/output/")
```

[Spark] Matrix의 Row를 전체 Vertex 개수로 두고 Col 기준으로 나누기 ( 중복 비허용 ) (0)	2020.10.11
[Spark] Matrix의 Row를 전체 Vertex 개수로 두고 Col 기준으로 나누기 ( 중복 허용 ) (0)	2020.10.10
[Spark] RDD의 내용을 출력하는 방법 (0)	2020.10.10
[Spark] Spark Executor 설정 (2)	2020.10.04
[Spark] spark.executor.heartbeatInterval 오류 (0)	2020.07.27

'Data/Spark' Related Articles

Comments