목록전체 글 (768)
우노
에러 DenseMatrix를 생성하는 경우 import org.apache.spark.mllib.linalg.DenseMatrix val a = DenseMatrix.ones(46341,46341) java.lang.IllegalArgumentException: requirement failed: 46341 x 46341 dense matrix is too large to allocate at scala.Predef$.require(Predef.scala:224) at org.apache.spark.mllib.linalg.DenseMatrix$.ones(Matrices.scala:473) SparseMatrix를 생성한 후 toDense를 하는 경우 import org.apache.spark.mllib...
Map Scala의 Map은 Python의 Dictionary와 유사하게 사용된다. 특성 Map 은 변경 가능한 것 (mutable.Map) 과 변경 불가능한 것 (immutable.Map) 모두를 제공합니다. 예를들어 put 이라든지 remove 메소드는 immutable.Map 에서는 사용 불가. import scala.collection.mutable.Map 생성 val m = Map[Int,String]() val m2 = Map(1 -> "one" , 2-> "two") // 이렇게 초기화 할 수 있고 val m3 = Map((1,"one") , (2,"two")) // 이렇게도 할 수 있다. 추가 val m = mutable.Map[Int,String]() // 아래 처럼 가능 ( mutabl..
String Interpolation이란? String Interpolation은 스칼라 2.10에 추가된, 데이터를 기반으로 문자열을 더 쉽게 만들수 있는 새로운 기능이다. 즉, 문자열을 출력하거나 선언할 때 중간중간 다른 변수를 끼워넣는 구문이다. String Interpolation은 s, f, raw 세가지의 방식을 제공한다. s String Interpolator 문자열 앞에 s를 붙혀서 사용하고, ${변수명}으로 변수의 내용을 참조할 수 있다. val a = "Hello" val b = s"${a} 1" println(a) // Hello println(b) // Hello 1 println(s"${a} World") // Hello World
우선 YARN Resource의 개념에 대해 간단하게 알고 넘어가자 YARN Resource 개념 클러스터에 있는 노드 하나의 물리적 자원이 다음과 같다고 가정했을 때 CPU : 24 Memory : 128GB 다음 그림과 같이 YARN 리소스를 할당할 수 있다. yarn.nodemanager.resource.memory-mb nodemanager의 메모리 크기 한 노드의 물리 메모리가 128GB이므로, OS를 위한 8GB 정도를 제외해 120GB로 설정 yarn.scheduler.maximum-allocation-mb ResourceManager가 하나의 컨테이너 할당에 필요한 최대 메모리 크기 따라서, "yarn.scheduler.maximum-allocation-mb" 값은 "yarn.nodeman..
Amazon EMR에서 yarn-site.xml(Yarn 설정 파일)의 위치는 아래와 같다. /etc/hadoop/conf/yarn-site.xml
yarn resource 재시작 sudo systemctl stop hadoop-yarn-resourcemanager sudo systemctl status hadoop-yarn-resourcemanager sudo systemctl start hadoop-yarn-resourcemanager
다음 명령을 통해, yarn 환경에서 각 Worker 노드에 할당된 Executor 수를 확인할 수 있다. yarn node -list
break 스칼라에서는 기본 break 구문이 없어서 Breaks 객체를 만들어서 루프를 break 해야한다. 예제코드 // a가 6이 되면 루프중단 import scala.util.control._ var a = 1 var loop = new Breaks loop.breakable{ while(a
간단한 Spark 구조 및 용어 설명 하나의 중앙 조정자(master, Driver)와 하나 또는 여러 개의 분산 작업 노드(slave, Executor)로 이루어져있으며, Driver와 Executor를 합쳐서 Spark application이라고 부릅니다. 분산 모드에서는, 하나의 Spark application은 Cluster Manager라고 불리는 외부 서비스를 통해 여러 개의 머신에서 실행됩니다. https://wooono.tistory.com/58?category=914839 Spark local mode와 deploy mode(client, cluster)란? Spark 사용시 Cluster를 사용하는가? Cluster 사용 안한다. Spark local mode Cluster 사용 한다...
영화 평점 데이터셋 https://www.kaggle.com/rounakbanik/the-movies-dataset Kaggle에서 notebook 환경 제공 데이터셋 정보 ratings.csv : 평점데이터 ratings_small.csv : 평점데이터 (작은버전) keywords.csv : 영화 키워드 데이터 movies_metadata.csv : 영화 정보 데이터 credits.csv : 영화 제작 정보 links.csv : imdb와 tmdb에서의 영화 id 정보 links_small.csv : imdb와 tmdb에서의 영화 id 정보 (작은버전) 목표 The Movies Data를 이용하여 비슷한 영화 찾기 순서 Pandas를 이용하여 데이터 불러오기 Pandas를 이용하여 데이터 정제하기 Py..