우노

오늘의 인기 글

최근 글

최근 댓글

Today

Total

02-03 02:13

관리 메뉴

목록전체 글 (768)

우노

[Spark] java.lang.IllegalArgumentException: requirement failed: dense matrix is too large to allocate , java.lang.NegativeArraySizeException 에러 원인 및 해결 방법

에러 DenseMatrix를 생성하는 경우 import org.apache.spark.mllib.linalg.DenseMatrix val a = DenseMatrix.ones(46341,46341) java.lang.IllegalArgumentException: requirement failed: 46341 x 46341 dense matrix is too large to allocate at scala.Predef$.require(Predef.scala:224) at org.apache.spark.mllib.linalg.DenseMatrix$.ones(Matrices.scala:473) SparseMatrix를 생성한 후 toDense를 하는 경우 import org.apache.spark.mllib...

Data/Spark 2020. 10. 29. 13:29

[Scala] Map 요소 존재 여부 확인

Map Scala의 Map은 Python의 Dictionary와 유사하게 사용된다. 특성 Map 은 변경 가능한 것 (mutable.Map) 과 변경 불가능한 것 (immutable.Map) 모두를 제공합니다. 예를들어 put 이라든지 remove 메소드는 immutable.Map 에서는 사용 불가. import scala.collection.mutable.Map 생성 val m = Map[Int,String]() val m2 = Map(1 -> "one" , 2-> "two") // 이렇게 초기화 할 수 있고 val m3 = Map((1,"one") , (2,"two")) // 이렇게도 할 수 있다. 추가 val m = mutable.Map[Int,String]() // 아래 처럼 가능 ( mutabl..

Language/Scala 2020. 10. 28. 13:07

[Scala] String Interpolation

String Interpolation이란? String Interpolation은 스칼라 2.10에 추가된, 데이터를 기반으로 문자열을 더 쉽게 만들수 있는 새로운 기능이다. 즉, 문자열을 출력하거나 선언할 때 중간중간 다른 변수를 끼워넣는 구문이다. String Interpolation은 s, f, raw 세가지의 방식을 제공한다. s String Interpolator 문자열 앞에 s를 붙혀서 사용하고, ${변수명}으로 변수의 내용을 참조할 수 있다. val a = "Hello" val b = s"${a} 1" println(a) // Hello println(b) // Hello 1 println(s"${a} World") // Hello World

Language/Scala 2020. 10. 28. 12:55

[Spark] java.lang.IllegalArgumentException: Required executor memory (13312), overhead (2496 MB), and PySpark memory (0 MB) is above the max threshold (12288 MB) of this cluster! 에러 원인 및 해결 방법

우선 YARN Resource의 개념에 대해 간단하게 알고 넘어가자 YARN Resource 개념 클러스터에 있는 노드 하나의 물리적 자원이 다음과 같다고 가정했을 때 CPU : 24 Memory : 128GB 다음 그림과 같이 YARN 리소스를 할당할 수 있다. yarn.nodemanager.resource.memory-mb nodemanager의 메모리 크기 한 노드의 물리 메모리가 128GB이므로, OS를 위한 8GB 정도를 제외해 120GB로 설정 yarn.scheduler.maximum-allocation-mb ResourceManager가 하나의 컨테이너 할당에 필요한 최대 메모리 크기 따라서, "yarn.scheduler.maximum-allocation-mb" 값은 "yarn.nodeman..

Data/Spark 2020. 10. 27. 15:50

[AWS EMR] yarn-site.xml 위치

Amazon EMR에서 yarn-site.xml(Yarn 설정 파일)의 위치는 아래와 같다. /etc/hadoop/conf/yarn-site.xml

AWS/EMR 2020. 10. 27. 15:46

[AWS EMR] EMR 재시작 방법

yarn resource 재시작 sudo systemctl stop hadoop-yarn-resourcemanager sudo systemctl status hadoop-yarn-resourcemanager sudo systemctl start hadoop-yarn-resourcemanager

AWS/EMR 2020. 10. 27. 15:43

[Spark] yarn node -list

다음 명령을 통해, yarn 환경에서 각 Worker 노드에 할당된 Executor 수를 확인할 수 있다. yarn node -list

Data/Spark 2020. 10. 27. 10:38

[Scala] break

break 스칼라에서는 기본 break 구문이 없어서 Breaks 객체를 만들어서 루프를 break 해야한다. 예제코드 // a가 6이 되면 루프중단 import scala.util.control._ var a = 1 var loop = new Breaks loop.breakable{ while(a

Language/Scala 2020. 10. 26. 12:42

[Spark] Spark local mode와 Cluster Manager 및 deploy mode(client, cluster)

간단한 Spark 구조 및 용어 설명 하나의 중앙 조정자(master, Driver)와 하나 또는 여러 개의 분산 작업 노드(slave, Executor)로 이루어져있으며, Driver와 Executor를 합쳐서 Spark application이라고 부릅니다. 분산 모드에서는, 하나의 Spark application은 Cluster Manager라고 불리는 외부 서비스를 통해 여러 개의 머신에서 실행됩니다. https://wooono.tistory.com/58?category=914839 Spark local mode와 deploy mode(client, cluster)란? Spark 사용시 Cluster를 사용하는가? Cluster 사용 안한다. Spark local mode Cluster 사용 한다...

Data/Spark 2020. 10. 23. 13:35

[추천시스템] 유사도(Similarity) 튜토리얼

영화 평점 데이터셋 https://www.kaggle.com/rounakbanik/the-movies-dataset Kaggle에서 notebook 환경 제공 데이터셋 정보 ratings.csv : 평점데이터 ratings_small.csv : 평점데이터 (작은버전) keywords.csv : 영화 키워드 데이터 movies_metadata.csv : 영화 정보 데이터 credits.csv : 영화 제작 정보 links.csv : imdb와 tmdb에서의 영화 id 정보 links_small.csv : imdb와 tmdb에서의 영화 id 정보 (작은버전) 목표 The Movies Data를 이용하여 비슷한 영화 찾기 순서 Pandas를 이용하여 데이터 불러오기 Pandas를 이용하여 데이터 정제하기 Py..

Data/Recommender System 2020. 10. 22. 16:22

Prev 1 ··· 61 62 63 64 65 66 67 ··· 77 Next

목록전체 글 (768)

우노

티스토리툴바