목록전체 글 (768)
우노
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/co2eIn/btqY7nXytrK/WnzHfPlGgDuuEBhp2I7wHk/img.png)
오토인코더란? 오토인코더(Autoencoder)는 위 그림과 같이, 단순히 입력을 출력으로 복사하는 신경망이다. 어떻게 보면 간단한 신경망처럼 보이지만, 네트워크에 여러가지 방법으로 제약을 줌으로써, 어려운 신경망으로 만든다. 예를들어, 위 그림처럼 hidden layer의 뉴런 수를 input layer(입력층) 보다 작게해서 데이터를 압축(차원을 축소)한다거나, 입력 데이터에 노이즈(noise)를 추가한 후 원본 입력을 복원할 수 있도록 네트워크를 학습시키는 등 다양한 오토인코더가 있다. 이러한 제약들은 오토인코더가 단순히 입력을 바로 출력으로 복사하지 못하도록 방지하며, 데이터를 효율적으로 표현(representation)하는 방법을 학습하도록 제어한다. Undercomplete Autoencode..
.ipynb_checkpoints 란? 주피터 노트북에서 자동저장을 위해 사용되는 폴더입니다. .ipynb_checkpoints 삭제 방법 저장소 상위 디렉토리에서 현재 디렉토리 아래의 모든 .ipynb_checkpoints 파일을 제거 find . -name .ipynb_checkpoints -print0 | xargs -0 git rm -rf --ignore-unmatch 만약, 앞으로도 .ipynb_checkpoints 파일을 업로드하지 않을거라면, 저장소 상위 디렉토리에 .gitignore 파일 생성 및 .ipynb_checkpoints 추가 echo .ipynb_checkpoints >> .gitignore 변경 사항을 원격 저장소에 push git add --all git commit -m &..
.DS_Store 파일이란? DS_STORE 파일이란 Desktop Services Store의 약자로, 애플에서 정의한 파일 포맷이다. 애플의 맥 OS X 시스템이 finder로 폴더에 접근할 때 자동으로 생기는 파일로써, 해당 폴더에 대한 메타데이터를 저장하는 파일이다. 윈도우의 thumb.db 파일과 비슷하다. 분석해보면 해당 디렉토리 크기, 아이콘의 위치, 폴더의 배경에 대한 정보들을 얻을 수 있다. 맥 OS 환경에서만 생성 및 사용되지만, 파일을 공유하는 과정에서 이 파일도 같이 공유되는 경우가 있다. DS_store 파일은 프로젝트와 관련없는 파일이며, git status를 사용했을 때 발견되는 파일이니, github로 넘기지말고 삭제해도 된다. .DS_Store 삭제 방법 저장소 상위 디렉토..
들어가기 앞서, 연구 논문은 Conference 와 Journal 을 통해 공식화 된다. Conference 와 Journal 은 논문 발표가 목적인지, 논문 게재가 목적인지에 따라 구분된다. Conference 란? Conference 는, 연구 중간 결과를 전문가들에게 발표하고, 의견을 듣고, 토의하는 것이 주 목적이다. 현재의 연구 동향을 파악할 수 있게 해준다. 보통 1년에 한 번 열리며, 그 규모에 따라 10편~80편의 논문이 실린다. 심사는 한 번의 당/락으로 결정되며, 대략 5개월이면 결과를 알 수 있다. 심사 결과는 Accept, Reject, 또는 Conditional Accept 등이 있다. 보통, 심사 결과를 알리는 Notification email 이 We regret.. 으로 시작..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/be3v5E/btqYE6OMXkC/9jvgyDj8tdWxgag2Spgj21/img.png)
Feature Selection이란? Feature Selection은 ML에 있어서 매우 중요한 기술입니다. Feature Selection의 기본적인 아이디어는, 모델링 시 raw data의 모든 feature를 사용하는 것은 computing power와 memory 측면에서 매우 비효율적이기 때문에, 일부 필요한 feature만 선택해서 사용하자는 것입니다. 어떻게 보면, Feature Selection은 여러분의 모델 성능을 높이기 위해서 반드시 필요한 기술 중 하나입니다. Feature Selection은 Feature Engineering, Feature Extraction과 유사하지만, 표현 자체는 구분되며, 간단하게 정리하면 아래와 같습니다. Feature Engineering : 도메인..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Ozq7N/btqYIj041jj/JpjovuiNChub7OO6R8eku0/img.png)
해당 포스트에서는 하드웨어 구성요소에 대해서 살펴보겠습니다. 들어가기 앞서, 우선, PC 는 소프트웨어와 하드웨어로 이루어져있으며, 하드웨어는 아래 3가지 구성요소로 이루어져있습니다. 중앙처리장치 CPU 기억장치 RAM (주기억장치) HDD (보조기억장치) 입출력장치 마우스, 프린터 중앙 처리 장치 CPU 는 컴퓨터의 모든 연산과 작업을 처리하는 장치이며, 아래 구성 요소로 이루어져있습니다. CU (제어장치) 명령어를 순서대로 실행할 수 있도록 제어하는 장치입니다. 주기억장치에서 프로그램 명령어를 꺼내 해독하고, 그 결과에 따라, 명령어 실행에 필요한 제어 신호를 연산장치, 기억장치, 입출력장치로 보냅니다. 또한, 장치가 보낸 신호를 받아, 다음에 수행할 동작을 결정합니다. ALU (산술논리연산장치) 산..
log4j Apache Spark 작업을 실행할 때, 작업이 어떻게 진행되는지 로그를 찍어가며 확인하고 싶다면 Apache log4j을 사용해 Log를 확인할 수 있다. log4j는 Scala에서도 사용할 수 있는 인기있는 Java 기반 로깅 유틸리티이다. 사용 예제 import org.apache.log4j.LogManager val log = LogManager.getRootLogger log.warn("test")
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bgL0jy/btqYgGYoJCg/Pk04uzBuGMBJMg09bmrgGK/img.png)
Spark 서브 모듈 빌드 spark 다운로드 사이트 https://github.com/apache/spark Spark release : 3.1.1 package type : Pre-build for Apache Hadoop 2.7 download wget https://mirror.navercorp.com/apache/spark/spark-3.1.1/spark-3.1.1.tgz tar -xvzf spark-3.1.1.tgz 간단한 코드 수정 (오류 시 출력하는 문구 변경) github reference code (Spark sparse - dense multiplication) https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/..
XGBoost는 내장함수 또는 pickle, joblib 모듈을 사용해 모델을 저장/불러오기 할 수 있습니다. 내장 함수 import xgboost as xgb # 모델 정의 및 학습 xgb_model = xgb.XGBRegressor(**param).fit(trainData.features, trainData.labels) # 파일명 filename = 'xgb_model.model' # 모델 저장 xgb_model.save_model(filename) # 모델 불러오기 new_xgb_model = xgb.XGBRegressor() # 모델 초기화 new_xgb_model.load_model(filename) # 모델 불러오기 pickle import pickle # 모델 정의 및 학습 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/phEkS/btqXSoISyn9/eI2vpCZ8svhF7X4U3JCTx0/img.png)
One-Hot Vector 기존의 자연어처리 분야에서는, 단어를 One-Hot Vector 로 표현했습니다. One-Hot Vector란, 예를 들어 사전에 총 10000개의 단어가 있고, Man이라는 단어가 사전의 5391번째 index에 존재한다면 Man이라는 단어를, 5391번째 index만 1이고 나머지는 0인 10000차원 Vector로 표현하는 것입니다. 이 방법은 단순하다는 장점이 있지만, 단어를 단순히 index에 따른 Vector로 표현하기 때문에, 여러 단어 간 유사성을 평가할 수 없을 뿐만 아니라, 사전의 단어 개수가 증가하는 경우, One-Hot Vector의 크기가 지나치게 커진다는 단점을 가지고 있습니다. 따라서, 단어의 유사성을 파악할 수 있고, 저차원을 가지는 Vector를 ..