오늘의 인기 글
최근 글
최근 댓글
Today
Total
11-30 08:17
관리 메뉴

우노

[Spark] spark.driver.maxResultSize 오류 본문

Data/Spark

[Spark] spark.driver.maxResultSize 오류

운호(Noah) 2020. 7. 10. 20:24

오류

org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized
results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB)

원인

  • RDD로 분산 돼 있던 데이터를 collect() 등을 사용해 driver로 합치면서 driver 메모리 최대크기(driver.maxResultSize)를 초과했기 때문에 발생한다.

해결 방법

  • resource 설정을 통해 driver의 최대 메모리 크기를 늘린다.

    • SparkConf 등록을 통해 해결한다면

        conf.set("spark.driver.maxResultSize", "<X>g")
    • spark-defaults.conf 파일을 통해 해결한다면

        spark.driver.maxResultSize <X>g
    • spark-shell, spark-submit 명령행 매개변수를 통해 해결한다면

        --conf spark.driver.maxResultSize=<X>g 
    • 예외 메시지에 보고된 값 보다 높게 <X>g값을 설정한다.

      • 높은 한도를 설정 하는 경우 드라이버에서 메모리 부족 오류가 발생할 수 있다.
      • 메모리 부족 오류를 방지 하려면 적절 한 제한을 설정 해야한다.
Comments