목록AWS/EMR (8)
우노
Spark 서브 모듈 빌드 spark 다운로드 사이트 https://github.com/apache/spark Spark release : 3.1.1 package type : Pre-build for Apache Hadoop 2.7 download wget https://mirror.navercorp.com/apache/spark/spark-3.1.1/spark-3.1.1.tgz tar -xvzf spark-3.1.1.tgz 간단한 코드 수정 (오류 시 출력하는 문구 변경) github reference code (Spark sparse - dense multiplication) https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/..
자동화에 필요한 파일 종류 1) jar 파일 1-1) build.sbt 작성 1-2) scala 코드 작성 1-3) 각 scala 코드에 대한 jar 파일 생성 후, s3 에 업로드 2) 실험 쉘스크립트(spmm.sh) 2-1) 작성 후, s3 에 업로드 3) 클러스터 생성 쉘스크립트(createcluster.sh) 4) 입력파일(input.csv) 4-1) s3 에 업로드 1) jar 파일 1-1) build.sbt 작성 version := "1.0" scalaVersion := "2.12.10" libraryDependencies += "org.apache.spark" %% "spark-core" % "3.0.1" libraryDependencies += "org.apache.spark" %% "sp..
Amazon EMR에서 yarn-site.xml(Yarn 설정 파일)의 위치는 아래와 같다. /etc/hadoop/conf/yarn-site.xml
yarn resource 재시작 sudo systemctl stop hadoop-yarn-resourcemanager sudo systemctl status hadoop-yarn-resourcemanager sudo systemctl start hadoop-yarn-resourcemanager
/usr/lib/spark/jars
/etc/spark/conf/spark-defaults.conf
sudo stop zeppelin sudo start zeppelin
실험 환경 AWS EMR 환경에서 진행 Input file은 s3에서 가져온다. Output file은 local에 저장한다. 1. scala 코드 작성 spark_test.scala 코드 작성 import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession import org.apache.spark.ml.linalg.SparseMatrix import java.util.concurrent.TimeUnit.NANOSECONDS // 로컬파일에 결과를 적기 위해 모듈 호출 import java.io.PrintWriter import java.io.File import jav..