목록AI (99)
우노
비지도 학습 비지도 학습이란, 입력 데이터에 대한 출력 값(정답) 없이, 오직 입력 데이터만으로 학습을 진행한 뒤, 데이터로부터 유의미한 정보를 추출하는 머신러닝 기법입니다. 정답이 주어지지 않으므로, 학습이 끝난 뒤에도 정확도를 알 수 없습니다. 주요 기술 군집화(Clustering) 유사한 데이터들을 그룹화하는 작업 비정상 탐지(Anomaly detection) 예상치 못한 이벤트 또는 결과를 식별하는 작업 차원 축소(Dimension reduction) 고려해야하는 Feature 의 개수를 줄이는 작업 상관관계가 있는 여러 Feature 를 하나로 합치는 작업 군집화 주요 모델 K-Means Clustering DBSCAN Mean-Shift Clustering EM Clustering using ..
XGBoost version 확인 코드 $ python > import xgboost as xgb > xgb.__version__ '1.3.3'
Tensorflow version 확인 코드 $ python > import tensorflow as tf > tf.__version__ '2.2.0' 참고 https://daeson.tistory.com/295
Dataset 에 Sklearn Scaler 적용 from sklearn.preprocessing import MinMaxScaler # MinMaxScaler 객체 생성 minmax_scaler = MinMaxScaler() # 훈련데이터의 모수 분포 저장 minmax_scaler.fit(X_train) # 훈련 데이터 스케일링 X_train_scaled = minmax_scaler.transform(X_train) Tensorflow Model 및 Sklearn Scaler 저장 Model 저장 # 모델 생성 및 훈련 model = create_model() model.fit(X_train_scaled, y_train, epochs=5) # 모델을 savedModel 포맷으로 저장 model.save..

티처블 머신이란? 티처블 머신은 구글에서 제공하는 머신러닝 학습 도구이며, 누구나 머신러닝 모델을 쉽고 빠르게 만들 수 있도록 제작된, 웹 기반 도구입니다. 사용자들은 티처블 머신을 사용해 이미지, 사운드, 포즈를 학습할 수 있으며, 생성한 학습 모델을, 사이트, 앱 등 다양한 방법과 용도로 사용할 수 있습니다. 사용방법 1. 공식 홈페이지 접속 공식 홈페이지에 접속합니다. https://teachablemachine.withgoogle.com/ 사용방법 2. 프로젝트 시작 [시작하기] 를 클릭하여, 티처블 머신을 시작합니다. (로그인 없이도 사용 가능합니다.) 좌측 상단의 [햄버거 버튼] 클릭 후, [새 프로젝트] 를 클릭합니다. 티처블 머신 2.0 은 웹 기반으로 동작하기 때문에, 별도의 프로그램 설..
Tensorflow 는, 두 개의 포맷 (SavedModel 과 HDF5) 으로 모델을 저장할 수 있습니다. SavedModel 포맷으로 모델 저장/불러오기 (기본) SavedModel 포맷은 TF2.x 의 기본 파일 포맷입니다. 모델 저장하기 # 모델 생성 및 훈련 model = create_model() model.fit(train_images, train_labels, epochs=5) # 전체 모델을 기본 포맷으로 저장 model.save('model') 모델 불러오기 import tensorflow as tf # 모델 불러오기 load_model = tf.keras.models.load_model('model') HDF5 포맷으로 모델 저장/불러오기 .h5(HDF5)..
.h5 이란? 학습 시킨 model 을 파일로 저장할 때, 보통 .h5 확장자로 저장합니다. .h5 확장자는, HDF5 포맷으로 데이터를 저장한다는 것을 의미합니다. .h5 파일은, 모델 및 가중치(weight)를 모두 가지고 있습니다.

Distributed Training (분산 학습) 이란? 딥러닝 모델 설계 과정에는 많은 시간이 소요됩니다. 따라서, 모델의 학습 과정을 가속화하는 것은 매우 중요합니다. 분산 학습은 이러한 딥러닝 모델의 학습 시간을 단축하는데 필수적인 기술 중 하나입니다. Distributed Training 분산 학습의 핵심 개념은 크게 3가지로 분류할 수 있습니다. 작업 분할 방식 Model Parallelism Data Parallelism Parameter 동기화 방식 Synchronous replication Asynchronous replication Gradient 취합 방식 All-Reduce (Parameter Server) Ring-AllReduce 작업 분할 방식 작업 분할 방식은 2가지로 분류됩..

Permutation Importance 란? Permutation Importance 는, 모델 예측에 가장 큰 영향을 미치는 Feature 를 파악하는 방법입니다. Permutation Importance 는 모델 훈련이 끝난 뒤에 계산되며, 훈련된 모델이 특정 Feature 를 안 썼을 때, 이것이 성능 손실에 얼마만큼의 영향을 주는지를 통해, 그 Feature 의 중요도를 파악하는 방법입니다. 또한, 어떤 모델이든 적용할 수 있습니다. Permutation Importance 의 장점 Permutation Feature Importance 의 중요한 특징이자 장점은, 모델을 재학습 시킬 필요가 없다는 것입니다. 기존에는 특정 Feature 를 제거하고 모델을 재학습해서 중요도를 파악하는 방법도 있..

Linear Regression 이란? Linear Regression 은 선형 회귀이며, 선형 방정식은 아래 공식으로 표현할 수 있습니다. y = ax + b 하지만, 아래 그림처럼, 데이터가 비선형적으로 분포하고 있을 땐, 선형 회귀 모델의 오차는 커지게 됩니다. 따라서 만약, 데이터가 2차원 곡선 형태로 분포되어 있다면, 2차원 곡선 모델로, 3차원 곡선 형태로 분포되어 있다면, 3차원 곡선 모델로 접근하는 것이 오차를 줄이는 방법일 수 있습니다. Polynomial Regression 이란? Polynomial Regression 은 다항 회귀이며, 다항 방정식은 아래 공식으로 표현할 수 있습니다. 따라서, 데이터가 비선형적으로 분포하고 있을 땐, 아래 그림과 같이, 비선형 회귀 모델의 오차가 적..