본문 바로가기
딥러닝/이론 정리

NLP 자연어를 표현하기 위한 벡터

by 초보코딩러 2021. 9. 14.

1.TOKENIZER(라이브러리 종류 소개)

 

1-1. English

 

 : SPACY, NLTK -> 라이브러리를 주로 이용

2-1. Korean

 

: KONLPy(Hannaum, Kkma, Komoran, Twitter)

 MECAB, KHAIII -> 라이브러리 

 

2. Word2Vec

Word2Vec은 2가지 종류가 있다.

 

1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조

2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조

 

3. GLOVE

: co-occurrence를 반영해서 학습을 한다. 

4. FASTTEXT

토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다

이를 기반으로 한 FASTTEXT

 

 

댓글