목록분류 전체보기 (767)
우노
내결함성이란? 운영중이던 시스템의 데이터가 손실되거나 진행중인 작업이 손상되지 않도록 전원 부족 또는 하드웨어 장애와 같은 돌발 사태에 대비할 수 있는 컴퓨터 또는 운영체제의 기능이다. 미러 볼륨, RAID-5 볼륨, 클러스터로 내결함성을 제공할 수 있다. 1. 미러볼륨 두 개의 실제 디스크 데이터를 복제하는 내결함성 볼륨이다. 미러 볼륨은 미러라고 하는 두개의 똑같은 볼륨을 사용해 볼륨에 포함된 정보를 복제하여 데이터 중복시킨다. 미러는 항상 다른 디스크에 존재한다. 미러 볼륨은 확장할 수 없다. 2. RAID-5 볼륨 세 개 이상의 실제 디스크에 걸쳐 데이터 및 패리티 스트라이프가 간헐적으로 만들어지는 내결함성 볼륨. 패리티는 오류 발생 후 데이터 재구축시 사용되는 계산 값이다. 동적 디스크에만 RA..
SPARK(In-Memory 방식)과 Hadoop MapReduce(분산병렬 처리방식)의 차이 Hadoop은 mapreduce 방식으로 데이터를 분산 처리 합니다. 여러 곳에 분산 저장된 데이터를 처리 하기 위해 mapreduce 방식으로 데이터를 처리 합니다. spark 역시 mapreduce 방식의 데이터처리 구조를 지원합니다. 즉, spark도 여러 곳에 저장된 데이터를 처리 하기 위해 mapreduce 방식으로 데이터를 처리 할 수 있다는 뜻입니다. 둘의 차이는, 데이터를 메모리에 놓고 하느냐, 디스크에 놓고 하느냐 입니다. Hadoop은 기본적으로 디스크로부터 map/reduce할 데이터를 불러오고, 처리 결과를 디스크로 씁니다. 따라서, 데이터의 읽기/쓰기 속도는 느린 반면, 디스크 용량 만큼..
MPI란? Message Passing Interface의 약자로 분산 및 병렬 처리에서 사용되는 표준 라이브러리이다. 병렬컴퓨팅 환경에서 지역적으로 메모리를 따로 가지는 여러 개의 노드(컴퓨터)들이 데이터를 공유하기 위해서는 통신에 대한 규약이 필요한데, 이를 MPI라고 한다. MPI 사용 예 예를 들어 1부터 1000까지를 더한다 해보자. 만약 코어가 1개라면 1개의 코어를 이용하여 1부터 100까지 더하면 된다. 만약 코어가 10개이고 이 작업을 더 빠르게 수행하고 싶다면 1부터 1000사이를 10개의 구간으로 쪼개어 첫 번째 코어는 1부터 100까지 더하게 하고 두 번째 코어는 101부터 200까지 더하게 하여 10개의 코어에 작업을 분산시킨다. 그 후에 10개의 코어의 결과물들을 한 군데 취합하..
Spark Shuffle 이란? Shuffle 은 Spark 에서 데이터를 재분배하는 방법이며, 효율적인 Spark Application 을 개발하기 위해 상당히 중요한 개념입니다. Background Shuffle 을 이해하기 위해서는, reduceByKey 의 작동 방식을 알아야합니다. reduceByKey 는 동일한 Key 를 가지고 있는, 모든 record 값을 취합하는 작업입니다. (A, 1), (A, 2), (A, 3) → (A, 6) 하지만, Spark 의 분산처리는 파티션 단위로 진행되기 때문에, 동일한 Key 의 모든 record 값을 취합하기 위해선, 동일한 Key 를 가진 튜플 데이터가 전부 같은 파티션에 있어야합니다. 따라서, 모든 튜플 데이터가 여러 클러스터에 분산 저장되어 있을 ..
MapReduce가 일반적인 병렬 프로그래밍 모델이 되어 감에 따라 MapReduce 프레임 워크에서 매트릭스 연산을 구현하려는 시도도 있었다. 그러나 MapReduce는 오버 헤드가 많고 분산 메모리를 잘 활용하지 않기 때문에 이 솔루션은 효율적이지 않다. Spark와 Hadoop MapReduce의 차이 https://wooono.tistory.com/50
Spark Property Spark는 SparkConf, spark-shell, spark-submit, spark-defaults.conf 을 통해 Spark Application 실행과 관련된 자원을 설정할 수 있습니다. property 적용 순서는 SparkConf, spark-shell, spark-submit, spark-defaults.conf 입니다. 적용 예 SparkConf val conf = new SparkConf().setAppName("Histogram").setMaster("local") val sc = new SparkContext(conf) spark-shell spark-shell --master yarn --num-executors 8 --executor-cores 2 ..
/etc/spark/conf/spark-defaults.conf
sudo stop zeppelin sudo start zeppelin
find는 리눅스에서 파일 및 디렉토리를 검색할 때 사용하는 명령어이다. find 명령어 사용 예제 현재 디렉토리 아래 모든 파일 및 하위 디렉토리에서 파일 검색 find . -name [FILE] 전체 시스템(루트 디렉토리) 에서 파일 검색 find / -name [FILE]
오류 org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB) 원인 RDD로 분산 돼 있던 데이터를 collect() 등을 사용해 driver로 합치면서 driver 메모리 최대크기(driver.maxResultSize)를 초과했기 때문에 발생한다. driver.maxResultSize의 기본값은 1G(1024MB)이다. 자세한 내용은 응용 프로그램 속성 을 참조 해결 방법 resource 설정을 통해 driver의 최대 메모리 크기를 늘린다. Spark..