목록분류 전체보기 (768)
우노
RDD 데이터는 설정 된 RDD 파티션 개수 만큼의 파일로 나뉘어 S3 경로에 저장된다. outputRDD.saveAsTextFile("s3://bucket/path/to/output/") coalesce 함수를 사용해 RDD 파티션을 원하는 개수 만큼의 파일로 합친 뒤, s3 경로에 저장할 수 있다. outputRDD.coalesce(1).saveAsTextFile("s3://bucket/path/to/output/")
Local mode(single machine)가 아닌 Cluster mode에서는 RDD 생성 시 RDD가 각각 분할 되어 executor에 할당된다. 이 때, executor에 할당 된 모든 RDD의 내용을 출력하기 위해서는 collect() 함수가 사용된다. myrdd.collect().foreach(println) 그러나, collect() 함수 사용 시 모든 executor의 rdd를 drvier node로 취합하기 때문에 out of memory가 발생할 수 있다. 따라서, 이를 해결 하기 위해 take() 함수가 사용된다. take() 함수는 RDD의 일부 내용만을 출력할 때 사용되며 아래는 100개의 element 만을 print 하는 예이다. myrdd.take(100).foreach(p..
이진 분류란? 이진 분류란, 문제에 대한 정답을 두 가지 답 중 하나로 분류하는 것을 의미한다. 예를 들어, 문제에 대한 정답이 0 과 1 중 하나라면, 해당 문제에 대한 정답이 1 일 확률이 출력되고, 해당 확률이 0.5 이상이면 1 로 판단한다. 이러한 이진 분류 문제를 해결하기 위한 회귀 분석 중 하나가, Logistic Regression 이다. Logistic Regression 은, 가설 함수로 시그모이드 함수를 사용하며 비용 함수로는 Binary Cross Entropy 를 사용한다. https://wooono.tistory.com/122 다중 분류란? 다중 분류란, 문제에 대한 정답을 세 가지 이상의 답 중 하나로 분류하는 문제이다. 다중 분류 문제에도, 이진 분류에서 사용된 시그모이드 함..
Graph data Graphalytics에서는 테스트 및 표준 벤치 마크에 사용되는 Graph dataset를 제공한다. https://graphalytics.org/datasets "datagen-*" 로 시작하는 데이터가 임의로 만든 Graph dataset 이다. 원하는 파일을 다운로드 후 압축을 해지하면 다양한 파일들이 존재한다. 입력 데이터 (정점 및 에지 파일) 각 알고리즘 (BFS, WCC, PR, CDLP, LCC, SSSP)에 대한 유효성 검사 데이터 및 메타 데이터 (속성 파일) Matrix data를 사용하고 싶다면 확장자명이 .e로 끝나는 파일을 사용하면 된다. Matrix data 확장자명이 .e로 끝나는 Matrix data를 활용하기 위해선 몇가지 전처리가 필요하다. 1) v..
시작하기 전에 카카오맵(Kakao 지도) Javascript API는 키 발급을 받아야 사용할 수 있습니다. 그리고 키를 발급 받기 위해서는 카카오 계정이 필요합니다. 키 발급 및 적용 과정 카카오 개발자사이트 (https://developers.kakao.com/) 접속 회원가입 및 로그인 카테고리 "내 애플리케이션" 클릭 애플리케이션 추가하기 클릭 앱 이름 및 사업자명 기재 추가 된 App 클릭 앱 설정 > 플랫폼 > Web 플랫폼 등록 > 사이트 도메인 등록 (예:http://localhost:8080) 앱 설정 > 요약 정보 및 앱 키 > [JavaScript 키] 를 지도 API의 appkey로 사용 Javascript 예 웹 실행
Dockerfile Dockerfile은 DockerImage를 생성하기 위한 스크립트(설정파일)이다. 여러가지 명령어를 토대로 Dockerfile을 작성한 후 빌드하면 Docker는 Dockerfile에 나열된 명령문을 차례대로 수행하며 DockerImage를 생성해준다. Dockerfile을 읽을 줄 안다는 것은 해당 이미지가 어떻게 구성되어 있는지 알 수 있다는 의미이다. Dockerfile의 장점 (1) 이미지가 어떻게 만들어졌는지를 기록한다. 보통 사람들은 완성된 이미지를 가져다 쓰기 때문에 이미지가 어떻게 만들어졌는지에 대해서는 알 필요가 없다. 그러나 개발자의 경우라면 조금 다르다. 어떠한 애플리케이션을 담고 있는 이미지가 설치 되기 위한 과정은 어떠한지, 중간에 어떠한 과정을 수정해야 하는..
이진 분류(Binary Classification) 이진 분류란, 문제에 대한 정답을 두 가지 답 중 하나로 분류하는 것을 의미한다. 예를 들어, 문제에 대한 정답이 0 과 1 중 하나라면, 해당 문제에 대한 정답이 1 일 확률이 출력되고, 해당 확률이 0.5 이상이면 1 로 판단한다. 그렇다면, 이진 분류 문제는 선형 회귀(Linear Regression)로 해결 할 수 있을까? 선형 회귀는 아래 그림과 같이, Outlier(이상치)에 약하기 때문에 분류 문제에 잘 동작하지 않는다. 따라서, 이러한 이진 분류 문제를 해결하기 위한 회귀 방법 중 하나가, 로지스틱 회귀(Logistic Regression)이다. 로지스틱 회귀(Logistic Regression) 가설(Hypothesis) 선형 회귀(Li..
정의 Amazon EC2 RI(예약 인스턴스)는 온디맨드 요금과 비교하여 상당한 할인 혜택(최대 72%)을 제공하며 특정 가용 영역에서 사용하는 경우에는 용량 예약을 제공합니다. 예약 인스턴스 구매 방법 예약 인스턴스 구매는 간단합니다. AWS Management Console이나 API 도구를 사용하면 구매를 완료할 수 있습니다. AWS Management Console 사용 AWS Management Console에 로그인합니다. Amazon Web Services 메뉴에서 "EC2"를 선택합니다. 왼쪽 탐색 창에서 "Reserved Instances"를 선택합니다. "Purchase Reserved Instances"를 선택합니다. 옵션 선택 후 "Search" 합니다. Platform (운영체제)..
Spark Property Spark 는 Spark Application 실행과 관련된 자원을 설정할 수 있다. SparkConf, spark-shell, spark-submit, spark-defaults.conf 을 수정함으로써 설정 가능하다. property 적용 순서는 SparkConf, spark-shell, spark-submit, spark-defaults.conf 이다. 자주 사용되는 자원 설정 예 --num-executors : 전체 executor 개수 --executor-cores : 각 executor 당 core 개수 --executor-memory : 각 executor 당 memory 용량 Core, Memory 관련 설정 spark job 을 실행시킬 때, 우리가 컨트롤 할 ..
AWS란? AWS(Amazon Web Service)는 아마존닷컴의 클라우딩 컴퓨팅 사업부이다. 현재 클라우드 분야에서 세계1위의 점유율을 차지하고 있다. 간단하게 말하자면 컴퓨터의 모든 기능을 AWS를 이용해 직접 서버나 컴퓨터를 구매하지 않고 간단하게 구현할 수 있다. EC2란? Elastic Compute Cloud — 줄여서 EC2라고 한다. EC2는 AWS 서비스의 핵심으로써 사용자는 아마존의 가상컴퓨터를 임대받아 그 위에 자신만의 컴퓨터 프로그램을 실행해 원하는 기능을 컴퓨터를 따로 살 필요 없이 필요한 성능, 용량만큼 간단하게 구축할 수 있다. 이 서비스는 CPU사용량(연산횟수)으로 결제하는 것이 아닌 인스턴스를 켜 놓은 시간을 기준으로 결제하는 구조다. EC2 인스턴스 생성 AWS 에 접속..