목록전체 글 (768)
우노
오류 org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB) 원인 RDD로 분산 돼 있던 데이터를 collect() 등을 사용해 driver로 합치면서 driver 메모리 최대크기(driver.maxResultSize)를 초과했기 때문에 발생한다. driver.maxResultSize의 기본값은 1G(1024MB)이다. 자세한 내용은 응용 프로그램 속성 을 참조 해결 방법 resource 설정을 통해 driver의 최대 메모리 크기를 늘린다. Spark..
// 로컬파일에 결과를 적기 위해 라이브러리 호출 import java.io.PrintWriter import java.io.File import java.io.FileOutputStream // 결과파일위치 val result_dir = "./result_file" val latency1 = 1 val latency1 = 2 val latency1 = 3 // writer를 사용해 로컬파일에 결과 적기 val writer = new PrintWriter(new FileOutputStream(new File(result_dir), true)) writer.write(latency1 + " " + latency2 + " " + latency3 + "\n") writer.close
// 라이브러리 호출 import java.util.concurrent.TimeUnit.NANOSECONDS var tik0 = System.nanoTime() // 원하는 코드 실행 var tik1 = System.nanoTime() // 지연율 출력 println(s"Time taken: ${NANOSECONDS.toMillis(tik1 - tik0)} ms") println(s"Time taken: ${NANOSECONDS.toSeconds(tik1 - tik0)} s")
참고 사이트 github : https://github.com/apache/spark/tree/master/mllib/src/main/scala/org/apache/spark/mllib/linalg Quickstart : https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart : https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Spark의 Vector ( SparseVector , DenseVector) 연산 기능이 없다.( spark 3.0.0 이상부터 같은 패키지 내 BLAS.scala 의 dot 사용 가능 ) // Vectors 라이브러리 호출 import org.apach..
참고 사이트 github https://github.com/scalanlp/breeze/tree/master/math/src/main/scala/breeze/linalg https://github.com/scalanlp/breeze/tree/b965a1c36e955a87fdffa1b9f5b3f44e3a5f191c/math/src/main/codegen/breeze/linalg Quickstart https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Breeze의 Vector ( SparseVector , DenseVector) /..
라이브러리 여러 모듈과 패키지를 묶어 라이브러리라고 한다. 패키지 특정 기능과 관련된 여러 모듈들을 하나의 상위 폴더에 넣어 놓은 것을 패키지라 한다. 패키지 안에 여러가지 폴더가 더 존재할 수 있다. 모듈 특정 기능들(함수, 변수, 클래스 등)이 구현되어있는 파일을 의미한다.
Pandas는, 읽고자 하는 파일을 Pandas.read_csv(파일경로명)에 넘겨주면, 해당 파일을 읽어 DataFrame으로 반환해준다. import pandas as pd f = pd.read_csv('./data/test.txt',delimiter = ' ') 또한, Pandas.to_csv(파일경로명)을 사용해 DataFrame을 CSV 파일로 저장할 수 있다. import pandas as pd f = pd.DataFrame(data) f.to_csv('./result.csv', index=False) # csv 저장시 index 제거
실험 환경 AWS EMR 환경에서 진행 Input file은 s3에서 가져온다. Output file은 local에 저장한다. 1. scala 코드 작성 spark_test.scala 코드 작성 import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession import org.apache.spark.ml.linalg.SparseMatrix import java.util.concurrent.TimeUnit.NANOSECONDS // 로컬파일에 결과를 적기 위해 모듈 호출 import java.io.PrintWriter import java.io.File import jav..
쉘 스크립트 파일 생성 sudo vi [test.sh](http://test.sh/) 쉘 스크립트 작성 #!/bin/bash echo "test" 쉘 스크립트 파일 권한 수정 sudo chmod 755 test.sh 쉘 스크립트 파일 실행 ./test.sh
Ubuntu echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt -y Linux sudo rm -f /etc/yum.repos.d/bintray-rpm.repo curl -L https://www.scala-sbt.org/sbt-rpm.repo > sbt-rpm.repo sudo mv sbt-rpm.repo /etc/yum..