목록전체 글 (762)
우노
Pandas는, 읽고자 하는 파일을 Pandas.read_csv(파일경로명)에 넘겨주면, 해당 파일을 읽어 DataFrame으로 반환해준다. import pandas as pd f = pd.read_csv('./data/test.txt',delimiter = ' ') 또한, Pandas.to_csv(파일경로명)을 사용해 DataFrame을 CSV 파일로 저장할 수 있다. import pandas as pd f = pd.DataFrame(data) f.to_csv('./result.csv', index=False) # csv 저장시 index 제거
실험 환경 AWS EMR 환경에서 진행 Input file은 s3에서 가져온다. Output file은 local에 저장한다. 1. scala 코드 작성 spark_test.scala 코드 작성 import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession import org.apache.spark.ml.linalg.SparseMatrix import java.util.concurrent.TimeUnit.NANOSECONDS // 로컬파일에 결과를 적기 위해 모듈 호출 import java.io.PrintWriter import java.io.File import jav..
쉘 스크립트 파일 생성 sudo vi [test.sh](http://test.sh/) 쉘 스크립트 작성 #!/bin/bash echo "test" 쉘 스크립트 파일 권한 수정 sudo chmod 755 test.sh 쉘 스크립트 파일 실행 ./test.sh
Ubuntu echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt -y Linux sudo rm -f /etc/yum.repos.d/bintray-rpm.repo curl -L https://www.scala-sbt.org/sbt-rpm.repo > sbt-rpm.repo sudo mv sbt-rpm.repo /etc/yum..
OS 종류 OS 는 크게 Windows, Linux, Unix, MacOS 4가지로 분류된다. Linux 종류 Linux 는 크게 레드햇, 데비안, 우분투 3가지로 분류되며, 계열에 따른 패키지 관리 명령어가 다르다. 레드햇 계열은 yum 을 사용하고 레드햇 엔터프라이즈 페도라 CentOS 데비안, 우분투 계열은 apt-get 을 사용한다.
변수 변수 a를 사용하고 싶다면 a=hello 처럼 사용하면 된다. 변수는 대소문자를 구분하며, 대입을 할 때 = 사이에 공백이 있으면 안된다. 만약 변수를 숫자처럼 사용하고 싶다면 아래와 같은 2가지 방법이 있다. #!/bin/bash a=123 # 123에 123을 더하는 2가지 방법 b=`expr $a + 123` #마지막은 ``로 덮어줘야한다. c=$((${a} + 123)) echo $b echo $c ./test.sh 246 조건문 #!/bin/bash value=0 if [ "${value}" == "0" ]; then echo "value is 0" elif [ "${value}" == "1" ]; then echo "value is 1" else echo "value is 2" fi 반복..
COO(Coordinate list) Coordinate list는 좌표리스트라는 뜻으로, (행, 열, 값)의 튜플 목록으로 Matrix를 저장하는 방법이다. CSR(Compressed Sparse Row) 데이터를 행(가로)의 순서대로 정리 압축하는 방법이다. 구성요소 행 순서대로 데이터 배열(A) 행 순서대로 데이터의 열 인덱스 배열(JA) 행 압축 정보 배열(IA) 행 압축 정보 배열은 [최초 시작 행번호, 시작 행에서의 데이터 누적 개수, 두번째 행에서의 데이터 누적 개수,..., 마지막 행에서의 데이터 누적개수]이다. CSC(Compressed Sparse Column) 데이터를 열(세로)의 순서대로 정리 압축하는 방법이다. 구성요소 열 순서대로 데이터 배열 열 순서대로 데이터의 행 인덱스 배열..
참고사이트(graph500) → https://graph500.org/?page_id=12 SCALE=15 edgefactor=32 %% Set number of vertices. N = 2^SCALE; %% Set number of edges. M = edgefactor * N; %% Set initiator probabilities. [A, B, C] = deal (0.57, 0.19, 0.19); %% Create index arrays. ijw = ones (3, M); %% Loop over each order of bit. ab = A + B; c_norm = C/(1 - (A + B)); a_norm = A/(A + B); for ib = 1:SCALE, %% Compare with prob..
Definitions Graph, Vertex, Edge 그래프 이론에 대해 공부하기 위해 가장 기본이 되는 정의(definition)부터 살펴보자. 그래프(graph)와 정점(vertex or node), 그리고 에지(edge)에 대한 정의는 다음과 같다. G(V, E) : Graph G는 V(vertex set)와 E(edge set)로 이루어져있다. Undirected / Directed graph edge set을 어떻게 정해 주느냐에 따라 Undirected graph, Directed graph로 나뉘게 된다. Undirected graph 대칭 행렬이다. e = (a, b) = (b, a) edge에 방향이 없어 (a,b)를 (b,a)로 나타내도 상관 없는 그래프를 의미한다. 예) Snap ..
데이터셋을 Amazon DocumentDB에 Migration 하기 오프라인 접근 방식 : mongodump 및 mongorestore 도구를 사용하여 Amazon DocumentDB 클러스터로 데이터를 마이그레이션할 수 있다. 순서 MongoDB에 데이터를 업로드 한다. MongoDB의 컬렉션 데이터 및 인덱스를 덤프한다. 덤프한 인덱스를 Amazon DocumentDB 클러스터에 복원한다. 덤프한 컬렉션 데이터를 Amazon DocumentDB 클러스터에 복원한다. Migration 된 Amazon DocumentDB 데이터 확인 Step 1. MongoDB에 데이터를 업로드 한다. docker 설치 및 Mongodb container 생성 sudo yum update -y sudo yum insta..