[ML] TfidfVectorizer를 사용한 Train, Test set 생성

오늘의 인기 글

최근 글

최근 댓글

Today

Total

07-02 15:06

관리 메뉴

우노

[ML] TfidfVectorizer를 사용한 Train, Test set 생성 본문

AI/Machine Learning

[ML] TfidfVectorizer를 사용한 Train, Test set 생성

운호(Noah) 2021. 5. 26. 16:40

Train Set 생성

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# TfidfVectorizer 객체 생성
vectorizer = TfidfVectorizer()

# TfidfVectorizer 할 X_train 데이터
X_train = ['I go to my home my home is very large', 'I went out my home I go to the market']

# vectorizer는 X_train에 등장하는 단어를 통해 단어 사전을 생성한 뒤,
# 해당 단어 사전을 사용해 X_train를 TfidfVectorizer 한다.
# 따라서, vec_X_train의 차원은 (X_train 문장 수, 사전의 단어 수) 가 된다.
vec_X_train = vectorizer.fit_transform(X_train)

# 벡터라이저가 학습한 단어사전 정렬
word_list = [i[0] for i in sorted(vectorizer.vocabulary_.items())]

# vec_X_train을 DataFrame 화
pd.DataFrame(vec_X_train.toarray(), columns=[word_list])

Test Set 생성

# TfidfVectorizer 할 X_test 데이터
X_test = ['I bought a yellow lemon I go back to home']

# X_train TfidfVectorizer 시 사용했던 vectorizer 를 사용해, 
# X_test를 TfidfVectorizer 한다.
vec_X_test = vectorizer.transform(X_test)

# vec_X_test을 DataFrame 화
pd.DataFrame(vec_X_test.toarray(), columns=[word_list])

'AI > Machine Learning' 카테고리의 다른 글

[ML] Sklearn Permutation Importance 를 사용한 Feature 중요도 파악 (2)	2021.07.21
[ML] Sklearn Polynomial Regression (5)	2021.07.20
[ML] Isolation Forest (1)	2021.03.08
[ML] Feature Selection (Filter Method & Wrapper Method & Embedded Method) (2)	2021.02.26
[ML] XGBoost 모델 저장/불러오기 (0)	2021.02.22

'AI/Machine Learning' Related Articles

Comments

우노

[ML] TfidfVectorizer를 사용한 Train, Test set 생성 본문

[ML] TfidfVectorizer를 사용한 Train, Test set 생성

Train Set 생성

Test Set 생성

'AI > Machine Learning' 카테고리의 다른 글

티스토리툴바