목록분류 전체보기 (767)
우노
정의 스팟 인스턴스는 사전 약정 없이 사용할 수 있는 EC2 Instance 입니다. 원리 스팟 인스턴스는 사용자 제시 가격(입찰가격)을 정해놓고 저렴할 때 이용할 수 있습니다. 사용자가 제시한 가격보다 인스턴스 시장 가격이 높아지게 되면 인스턴스가 종료됩니다. 시장 가격은 인스턴스 패밀리, 인스턴스 크기, 가용 영역(AZ), 리전(Region) 등에 따라 달라집니다. 또한, 수요와 공급량에 따라 가격이 달라집니다. 종료 되는 시점을 알 수는 없습니다. 하지만 여유 자원에 대한 경매 방식으로 온디멘드 대비 80~90% 저렴합니다. 장점 1~6시간 이내 짧은 워크로드를 다루거나, 갑작스런 피크 타임에 해당하는 컴퓨팅 리소스를 확보해야 할 때 좋다. 즉, 단기적으로 수요가 많을 때 유리하다. 주로 Batch..
오류 WARN Executor: Issue communicating with driver in heartbeater org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [10000 milliseconds] 원인 spark.executor.heartbeatInterval란 드라이버에 대한 각 익스큐터의 하트비트 간격입니다. 하트 비트는 Executor가 아직 실행 중임을 알리고 진행중인 작업을 메트릭으로 업데이트합니다. 따라서, 하트비트 통신 간격이 기본값을 초과하면 오류가 발생합니다. 기본값은 10s입니다. 이 값은 spark.network.timeout 보다 월등히 작아야합니다. 해결방법 spark.executor.heartbeatInt..
csv 데이터를 읽어와 DataFrame 생성 import pandas as pd df = pd.read_csv('./spmm dataset 1024 2048 4096 8192.csv') df DataFrame에서 data와 label을 분할해 numpy 배열로 생성 data = df.values[:,1:4] label = df.values[:,4] label에 따른 target_names 생성 import numpy as np target_names = np.array(['spark sm*dm','breeze sm*sm','breeze sm*dm','breeze dm*sm']) 데이터셋을 훈련세트와 테스트세트로 나눈다. scikit..
csv 데이터를 읽어와 DataFrame 생성 import pandas as pd df = pd.read_csv('./spmm dataset 1024 2048 4096 8192.csv') df DataFrame에서 data와 label을 분할해 numpy 배열로 생성 data = df.values[:,1:4] label = df.values[:,4] label에 따른 target_names 지정 import numpy as np target_names = np.array(['spark sm*dm','breeze sm*sm','breeze sm*dm','breeze dm*sm']) 데이터셋을 훈련세트와 테스트세트로 나눈다. scikit..
Numpy를 사용해 2차원 데이터 배열 생성 import numpy as np # 먼저 arr를 np.empty를 통해 초기화합니다. arr = np.empty((0,3), int) # 배열을 추가합니다. # 추가하는 배열의 요소수는 초기화했던 길이와 동일해야합니다. # axis = 0은 행으로 추가한다는 뜻입니다. arr = np.append(arr, np.array([[1, 2, 3]]), axis=0) arr = np.append(arr, np.array([[4, 5, 0]]), axis=0) print(arr) #[[1 2 3] # [4 5 0]]Pandas를 사용해 Numpy 배열을 DateFrame 형식으로 변환 import pandas as pd df = pd.DataFrame(arr,col..
Iris 붓꽃의 품종 분류 다중 클래스 분류 대표 예제 붓꽃의 4가지 특성 데이터값을 사용해 3가지 붓꽃 품종 중 하나를 예측하는 모델 만들기 모델은 K-최근접이웃 사용 데이터 적재 우리가 사용할 데이터셋은 머신러닝과 통계 분야에서 오래전부터 사용해온 붓꽃 iris 데이터셋입니다. 이 데이터는 scikit-learn의 datasets 모듈에 포함되어 있습니다. load_iris 함수를 사용해서 데이터를 적재하겠습니다. from sklearn.datasets import load_iris iris_dataset = load_iris() load_iris가 반환한 iris 객체는 파이썬의 딕셔너리 Dictionary 와 유사한 Bunch 클래스의 객체입니다. 즉 키와 값으로 구성되어 있습니다. In[11]:..
Pandas 란? Pandas는 파이썬에서 사용할 수 있는 데이터분석 라이브러리로, 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있으며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다. Pandas 데이터구조 Pandas는 3종류(Series, DataFrame, Panel)의 데이터구조를 제공하며 주로 Series(1차원)와 Data Frame(2차원)이 사용합니다. DataFrame 구조 DataFrame은 위 그림과 같이 Row, Column, Series 들로 구성되어 있습니다. 여기서, Series는 각 Column에 있는 데이터들을 의미합니다. DataFrame 기본 형태 import pandas as pd df = pd.DataFrame(data, index, c..
Numpy란? Numpy는 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬의 패키지입니다. Numpy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공합니다. 데이터 분석을 할 때, Pandas와 함께 자주 사용하는 도구로 등장합니다. 왜 Numpy를 사용할까? 데이터란 이미지, 오디오, 텍스트, 숫자 등 다양한 형태와 크기로 존재합니다. 사람은 이런 데이터들을 가지고 이해하지만 컴퓨터는 0 또는 1만 이해합니다. 여기서 핵심은 데이터를 숫자의 배열로 볼 수 있습니다. 실제로 데이터 분석을 수행하기 위한 전제 조건은 컴퓨터가 이해할 수 있도록 데이터를 숫자 형식으로 변환하는 것입니다. 여기서 효율적으로 배열을 저장 및 조작할 수 있어야 하는데 이러한 요구사항으..
명령어 모드 (셀 선택 모드) 셀추가 위에 셀 추가 : a 아래에 셀 추가 : b 셀 삭제 dd 복사/ 잘라내기 잘라내기 : x 복사하기 : c 붙여넣기 : p 아래 셀과 합치기 Shift + m 셀 타입 변경 마크다운 : m 코드 : y 파일 저장 ctrl + s 또는 s 코드 편집 모드 enter 코드 입력 모드 실행 셀 실행 ctrl + enter 실행 후 다음 셀로 이동 shift + enter 실행 취소 ctrl + z 셀 다시 실행 ctrl + y 커서에서 셀 나누기 shift + ctrl + - 셀 선택 모드로 가기 esc 또는 ctrl + m 주석처리 ctrl + /
들어가기 앞서, 인공지능 분야를 공부하게 되면, 자연스럽게 접하게 되는 프레임워크가 있습니다. 바로 구글에서 개발한, 텐서플로우 입니다. 그 다음으로 많이 듣게 되는 용어는 케라스 입니다. 해당 포스트에서는, 아주 간단한 질의 응답으로, 텐서플로우와 케라스의 차이를 알아보겠습니다. 둘은 무슨 사이? Tensorflow 는, 구글에서 개발하고 오픈소스로 공개한 머신러닝 프레임워크입니다. Keras 는, Tensorflow 위에서 동작하는 라이브러리입니다. 왜 Tensorflow 가 있는데, 그 위에서 동작하는 Keras 가 필요한가? Tensorflow 는 훌륭한 프레임워크이지만, 아직 사용을 하기에는 어려운 부분이 많습니다. 특히, 처음 머신러닝을 접하는 사람이라면 더욱 그렇습니다. 반면, Keras 는..