NLP 자연어를 표현하기 위한 벡터

1-1. English

: SPACY, NLTK -> 라이브러리를 주로 이용

2-1. Korean

: KONLPy(Hannaum, Kkma, Komoran, Twitter)

MECAB, KHAIII -> 라이브러리

Word2Vec은 2가지 종류가 있다.

1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조

2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조

: co-occurrence를 반영해서 학습을 한다.

토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다

이를 기반으로 한 FASTTEXT

BPE알고리즘 과 텍스트 전처리 과정 (0)	2021.08.05
NLP의 기본 자연어 처리 (0)	2021.08.02
파이토치 오토인코더 이론에 대해 알아보자 (0)	2021.07.30
원 핫 인코딩의 한계와 Vector Embeding의 필요성 (0)	2021.07.30
딥러닝 입문( DNN 이진분류) (0)	2021.07.22

시작 반 코딩