목록전체 글 (762)
우노
Spark Property Spark는 SparkConf, spark-shell, spark-submit, spark-defaults.conf 을 통해 Spark Application 실행과 관련된 자원을 설정할 수 있습니다. property 적용 순서는 SparkConf, spark-shell, spark-submit, spark-defaults.conf 입니다. 적용 예 SparkConf val conf = new SparkConf().setAppName("Histogram").setMaster("local") val sc = new SparkContext(conf) spark-shell spark-shell --master yarn --num-executors 8 --executor-cores 2 ..
/etc/spark/conf/spark-defaults.conf
sudo stop zeppelin sudo start zeppelin
find는 리눅스에서 파일 및 디렉토리를 검색할 때 사용하는 명령어이다. find 명령어 사용 예제 현재 디렉토리 아래 모든 파일 및 하위 디렉토리에서 파일 검색 find . -name [FILE] 전체 시스템(루트 디렉토리) 에서 파일 검색 find / -name [FILE]
오류 org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB) 원인 RDD로 분산 돼 있던 데이터를 collect() 등을 사용해 driver로 합치면서 driver 메모리 최대크기(driver.maxResultSize)를 초과했기 때문에 발생한다. driver.maxResultSize의 기본값은 1G(1024MB)이다. 자세한 내용은 응용 프로그램 속성 을 참조 해결 방법 resource 설정을 통해 driver의 최대 메모리 크기를 늘린다. Spark..
// 로컬파일에 결과를 적기 위해 라이브러리 호출 import java.io.PrintWriter import java.io.File import java.io.FileOutputStream // 결과파일위치 val result_dir = "./result_file" val latency1 = 1 val latency1 = 2 val latency1 = 3 // writer를 사용해 로컬파일에 결과 적기 val writer = new PrintWriter(new FileOutputStream(new File(result_dir), true)) writer.write(latency1 + " " + latency2 + " " + latency3 + "\n") writer.close
// 라이브러리 호출 import java.util.concurrent.TimeUnit.NANOSECONDS var tik0 = System.nanoTime() // 원하는 코드 실행 var tik1 = System.nanoTime() // 지연율 출력 println(s"Time taken: ${NANOSECONDS.toMillis(tik1 - tik0)} ms") println(s"Time taken: ${NANOSECONDS.toSeconds(tik1 - tik0)} s")
참고 사이트 github : https://github.com/apache/spark/tree/master/mllib/src/main/scala/org/apache/spark/mllib/linalg Quickstart : https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart : https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Spark의 Vector ( SparseVector , DenseVector) 연산 기능이 없다.( spark 3.0.0 이상부터 같은 패키지 내 BLAS.scala 의 dot 사용 가능 ) // Vectors 라이브러리 호출 import org.apach..
참고 사이트 github https://github.com/scalanlp/breeze/tree/master/math/src/main/scala/breeze/linalg https://github.com/scalanlp/breeze/tree/b965a1c36e955a87fdffa1b9f5b3f44e3a5f191c/math/src/main/codegen/breeze/linalg Quickstart https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Breeze의 Vector ( SparseVector , DenseVector) /..
라이브러리 여러 모듈과 패키지를 묶어 라이브러리라고 한다. 패키지 특정 기능과 관련된 여러 모듈들을 하나의 상위 폴더에 넣어 놓은 것을 패키지라 한다. 패키지 안에 여러가지 폴더가 더 존재할 수 있다. 모듈 특정 기능들(함수, 변수, 클래스 등)이 구현되어있는 파일을 의미한다.