1.TOKENIZER(라이브러리 종류 소개)
1-1. English
: SPACY, NLTK -> 라이브러리를 주로 이용
2-1. Korean
: KONLPy(Hannaum, Kkma, Komoran, Twitter)
MECAB, KHAIII -> 라이브러리
2. Word2Vec
Word2Vec은 2가지 종류가 있다.
1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조
2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조
3. GLOVE
: co-occurrence를 반영해서 학습을 한다.
4. FASTTEXT
토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다
이를 기반으로 한 FASTTEXT
'딥러닝 > 이론 정리' 카테고리의 다른 글
BPE알고리즘 과 텍스트 전처리 과정 (0) | 2021.08.05 |
---|---|
NLP의 기본 자연어 처리 (0) | 2021.08.02 |
파이토치 오토인코더 이론에 대해 알아보자 (0) | 2021.07.30 |
원 핫 인코딩의 한계와 Vector Embeding의 필요성 (0) | 2021.07.30 |
딥러닝 입문( DNN 이진분류) (0) | 2021.07.22 |
댓글