본문 바로가기

FASTTEXT2

NLP 자연어를 표현하기 위한 벡터 1.TOKENIZER(라이브러리 종류 소개) 1-1. English : SPACY, NLTK -> 라이브러리를 주로 이용 2-1. Korean : KONLPy(Hannaum, Kkma, Komoran, Twitter) MECAB, KHAIII -> 라이브러리 2. Word2Vec Word2Vec은 2가지 종류가 있다. 1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조 2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조 3. GLOVE : co-occurrence를 반영해서 학습을 한다. 4. FASTTEXT 토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다 이를 기반으로 한 FASTTEXT 2021. 9. 14.

병렬 코퍼스(Corpus) 정렬 시키기(for NMT) 1.Parallel Corpus? English Korea I love to go to school 나는 학교에 가는 것을 좋아한다. i am d doctor 나는 의사 입니다. 주요 수집 대상 : 뉴스, 기사, 드라마/영화 자막 문서 단위의 matching은 어느정도 되어 있지만, 문장 단위는 되어 있지 않음 : 의역,생략 등으로 인해 문장 단위 매칭은 쉽지 않다. NMT(기계 번역)에서 필요 2. Champllion(샴폴레옹) 프로그램 - 단어번역사전에 기반하여, 사전을 최대한 만족하는 문장 매칭을 찾아서 알려줌 Word Translation Dictionary(WTD)필요 (Facebook - MUSE Library) ratio parameter의 역할 : source 언어의 character 당 .. 2021. 8. 9.

이전 1 다음

티스토리툴바