본문 바로가기

자연어벡터1

NLP 자연어를 표현하기 위한 벡터 1.TOKENIZER(라이브러리 종류 소개) 1-1. English : SPACY, NLTK -> 라이브러리를 주로 이용 2-1. Korean : KONLPy(Hannaum, Kkma, Komoran, Twitter) MECAB, KHAIII -> 라이브러리 2. Word2Vec Word2Vec은 2가지 종류가 있다. 1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조 2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조 3. GLOVE : co-occurrence를 반영해서 학습을 한다. 4. FASTTEXT 토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다 이를 기반으로 한 FASTTEXT 2021. 9. 14.

이전 1 다음

티스토리툴바