목록분류 전체보기 (768)
우노
이미지를 사용해 컨테이너 생성 명령어 구조 docker run [옵션] [컨테이너이름] [옵션] [이미지[:TAG|@DIGEST]] [명령어] [매개변수] 사용 예1 docker run --name kubia-container -p 8080:8080 -d kubia 사용 예2 docker run --name unho-spark -it kmubigdata/ubuntu-spark bash 옵션 -d detached mode 흔히 말하는 백그라운드 모드 -p 호스트와 컨테이너의 포트를 연결 (포워딩) -v 호스트와 컨테이너의 디렉토리를 연결 (마운트) -e 컨테이너 내에서 사용할 환경변수 설정 -name 컨테이너 이름 설정 -rm 프로세스 종료시 컨테이너 자동 제거 -it -i와 -t를 동시에 사용한 것으로 ..
/ : 최상위 디렉토리(루트 디렉토리) /bin : binary의 약자로 실행파일 모음. 일반적으로 사용하는 mv, cat등 명령어 프로그램들이 있음 /boot : 부팅과 관련된 파일들이 모여있음 /dev : device의 약자로 물리적인 장치들이 파일화 되어 있다. /etc : 각종 환경 설정 파일들이 모여 있음 /home : 개인사용자들 디렉토리 /lib : 각종 라이브러리 저장 디렉토리 /mnt : CD-ROM, 네트워크 파일 시스템 등을 마운트 할때 사용되는 디렉토리 /proc : 현재 실행되고 있는 프로세스들이 파일화 되어서 저장되는 디렉토리 /root : root계정의 홈 디렉토리 /sbin : System-binary의 약자로, 주로 시스템 관리자가 쓰는 시스템 관련 명령어 프로그램들이 모여..
리눅스 환경 설정 파일들을 수정하기만 한다고 바로 내용이 적용되는 것은 아니다. 리부팅이나 쉘에 재로그인 하지 않고 수정된 새로운 환경 설정 내용을 즉시 적용하기 위해서 source 명령어가 사용된다. source [환경설정 파일명]
which 란? which 명령어는, PATH 환경 변수에 설정된, 원하는 파일 또는 디렉토리의 절대 경로를 알 수 있는 명령어입니다. 명령어 예제 # vim 경로를 찾는 예제 $ which vim # /usr/bin/vim
ln ln은 Link 의 약어로서 리눅스 파일시스템에서 링크파일을 만드는 명령어이다. 리눅스에서는 심볼릭링크와 하드링크의 두가지 링크 파일이 존재한다. 심볼릭링크 (Symbolic Link) 단순히 원본파일을 가리키도록 링크만 시켜둔 것으로 MS의 윈도우시스템에서 흔히 사용하는 '바로가기' 같은 것이며, 원본파일을 가리키고만 있으므로 원본파일의 크기와는 무관한다. 그리고 심볼릭링크에서는 원본파일이 삭제되어 존재하지 않을 경우에 링크파일은 깜박거리면서 링크파일의 원본파일이 없다는 것을 알려준다. 하드링크 (Hard Link) 원본파일과 다른 이름으로 존재하는 동일한 파일이며 원본파일과 동일한 내용의 다른 파일이라고 할 수 있다. 그리고 하드링크에서는 원본파일과 링크파일 두개가 서로 다른 파일..
/usr/lib/spark/jars
YARN 구조 Yarn 기본 요소 Resource Manager : 전체적인 자원 할당 관리 Resource Manager는 Client의 요청에 해당하는 Application Manager를 실행 Resource Manager는 Node Manager를 통해 전체 클러스터의 Resource 를 알고 관리할 수 있다. Resource Manager 은 클러스터 당 하나만 있다. Application Manager : Client가 요청한 작업을 전적으로 실행 어플리케이션에 필요한 자원 확인 후 Resource Manager에게 자원 요청 Node Manager에게 컨테이너를 만들라고 지시 할당된 컨테이너들은 Application Manager가 관리 Node Manager : 해당 노드의 자원 관리 No..
sbt 설치방법 https://wooono.tistory.com/32 참고 sbt를 사용한 간단한 Jar 파일 빌드 Base Directory 생성 및 접근 mkdir test && cd test Base Directory 내부에 build.sbt 파일 생성 Scala version 확인 후 맞추기 필요한 라이브러리를 Scala version에 맞춰 추가 https://mvnrepository.com/artifact/org.apache.spark build.sbt 작성 예 version := "1.0" scalaVersion := "2.11.12" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.4" libraryDependencies ..
Spark 의 데이터 구조 Spark 의 데이터 구조는 아래와 같이 크게 3가지 종류로 분류할 수 있습니다. RDD (Resillient Distributed Data) Dataframe Dataset 그 중, RDD 는 Spark 에 가장 처음으로 도입된 데이터 구조입니다. RDD 개념 RDD(Resillient Distributed Data) 는 아래와 같은 의미를 가집니다. Resillient (회복력 있는, 변하지 않는) 메모리 내부의 데이터가 손실되었을 때, 유실된 파티션을 재연산해 데이터를 복구할 수 있습니다. Distributed (분산된) 스파크 클러스터를 통하여, 메모리에 분산되어 저장됩니다. Data 데이터입니다. 즉, RDD 는 여러 분산 노드에 걸쳐 저장되는, 변경이 불가능한 데이터..
직렬화(serialized) 객체를 외부 데이터로 저장하는 것 객체화된 클래스(인스턴스)의 속성과 데이터를 파일화하여 외부에 저장할 수 있음 역직렬화(deserialized) 직렬화로 저장된 파일을 다시 객체로 만드는 것