목록Data (68)
우노
오류 org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB) 원인 RDD로 분산 돼 있던 데이터를 collect() 등을 사용해 driver로 합치면서 driver 메모리 최대크기(driver.maxResultSize)를 초과했기 때문에 발생한다. driver.maxResultSize의 기본값은 1G(1024MB)이다. 자세한 내용은 응용 프로그램 속성 을 참조 해결 방법 resource 설정을 통해 driver의 최대 메모리 크기를 늘린다. Spark..
// 로컬파일에 결과를 적기 위해 라이브러리 호출 import java.io.PrintWriter import java.io.File import java.io.FileOutputStream // 결과파일위치 val result_dir = "./result_file" val latency1 = 1 val latency1 = 2 val latency1 = 3 // writer를 사용해 로컬파일에 결과 적기 val writer = new PrintWriter(new FileOutputStream(new File(result_dir), true)) writer.write(latency1 + " " + latency2 + " " + latency3 + "\n") writer.close
참고 사이트 github : https://github.com/apache/spark/tree/master/mllib/src/main/scala/org/apache/spark/mllib/linalg Quickstart : https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart : https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Spark의 Vector ( SparseVector , DenseVector) 연산 기능이 없다.( spark 3.0.0 이상부터 같은 패키지 내 BLAS.scala 의 dot 사용 가능 ) // Vectors 라이브러리 호출 import org.apach..
참고 사이트 github https://github.com/scalanlp/breeze/tree/master/math/src/main/scala/breeze/linalg https://github.com/scalanlp/breeze/tree/b965a1c36e955a87fdffa1b9f5b3f44e3a5f191c/math/src/main/codegen/breeze/linalg Quickstart https://github.com/scalanlp/breeze/wiki/Quickstart Quickstart https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet Breeze의 Vector ( SparseVector , DenseVector) /..
Ubuntu echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt -y Linux sudo rm -f /etc/yum.repos.d/bintray-rpm.repo curl -L https://www.scala-sbt.org/sbt-rpm.repo > sbt-rpm.repo sudo mv sbt-rpm.repo /etc/yum..
COO(Coordinate list) Coordinate list는 좌표리스트라는 뜻으로, (행, 열, 값)의 튜플 목록으로 Matrix를 저장하는 방법이다. CSR(Compressed Sparse Row) 데이터를 행(가로)의 순서대로 정리 압축하는 방법이다. 구성요소 행 순서대로 데이터 배열(A) 행 순서대로 데이터의 열 인덱스 배열(JA) 행 압축 정보 배열(IA) 행 압축 정보 배열은 [최초 시작 행번호, 시작 행에서의 데이터 누적 개수, 두번째 행에서의 데이터 누적 개수,..., 마지막 행에서의 데이터 누적개수]이다. CSC(Compressed Sparse Column) 데이터를 열(세로)의 순서대로 정리 압축하는 방법이다. 구성요소 열 순서대로 데이터 배열 열 순서대로 데이터의 행 인덱스 배열..
참고사이트(graph500) → https://graph500.org/?page_id=12 SCALE=15 edgefactor=32 %% Set number of vertices. N = 2^SCALE; %% Set number of edges. M = edgefactor * N; %% Set initiator probabilities. [A, B, C] = deal (0.57, 0.19, 0.19); %% Create index arrays. ijw = ones (3, M); %% Loop over each order of bit. ab = A + B; c_norm = C/(1 - (A + B)); a_norm = A/(A + B); for ib = 1:SCALE, %% Compare with prob..
Definitions Graph, Vertex, Edge 그래프 이론에 대해 공부하기 위해 가장 기본이 되는 정의(definition)부터 살펴보자. 그래프(graph)와 정점(vertex or node), 그리고 에지(edge)에 대한 정의는 다음과 같다. G(V, E) : Graph G는 V(vertex set)와 E(edge set)로 이루어져있다. Undirected / Directed graph edge set을 어떻게 정해 주느냐에 따라 Undirected graph, Directed graph로 나뉘게 된다. Undirected graph 대칭 행렬이다. e = (a, b) = (b, a) edge에 방향이 없어 (a,b)를 (b,a)로 나타내도 상관 없는 그래프를 의미한다. 예) Snap ..