본문 바로가기

분류 전체보기16

NLP 자연어를 표현하기 위한 벡터 1.TOKENIZER(라이브러리 종류 소개) 1-1. English : SPACY, NLTK -> 라이브러리를 주로 이용 2-1. Korean : KONLPy(Hannaum, Kkma, Komoran, Twitter) MECAB, KHAIII -> 라이브러리 2. Word2Vec Word2Vec은 2가지 종류가 있다. 1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조 2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조 3. GLOVE : co-occurrence를 반영해서 학습을 한다. 4. FASTTEXT 토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다 이를 기반으로 한 FASTTEXT 2021. 9. 14.
병렬 코퍼스(Corpus) 정렬 시키기(for NMT) 1.Parallel Corpus? English Korea I love to go to school 나는 학교에 가는 것을 좋아한다. i am d doctor 나는 의사 입니다. 주요 수집 대상 : 뉴스, 기사, 드라마/영화 자막 문서 단위의 matching은 어느정도 되어 있지만, 문장 단위는 되어 있지 않음 : 의역,생략 등으로 인해 문장 단위 매칭은 쉽지 않다. NMT(기계 번역)에서 필요 2. Champllion(샴폴레옹) 프로그램 - 단어번역사전에 기반하여, 사전을 최대한 만족하는 문장 매칭을 찾아서 알려줌 Word Translation Dictionary(WTD)필요 (Facebook - MUSE Library) ratio parameter의 역할 : source 언어의 character 당 .. 2021. 8. 9.
BPE알고리즘 과 텍스트 전처리 과정 1. 분절 길이에 따른 특성과 장단점 형태소 분석기로 분절된 토큰의 길이가 짧을 수록 길 수록 1. Vocabulary 크기 감소 - 대부분 토큰은 희소하지 않아 희소성 문제 감소 2.OoV(학습 시 없던 단어)가 줄어듬 3.Sequensce의 길이 (time step)가 길어짐 - 잘개 쪼개므로 토큰 개수가 늘어남 - RNN 모델에 대한 부담 증가 (극단적 형태 : sentence 단위) 1. Vocabulary 크기 증가 - 대부분 토큰이 희소해져 희소성 문제 증대 2.OoV가 늘어남 3. Sequence의 길이(time step)가 짧아짐 -잘개 쪼개므로 토큰 개수가 줄어듦 - RNN 모델에 대한 부담 감소 2. 정보량에 따른 이상적인 형태 빈도가 높은 문장의 경우, 문장 단위의 token으로 나타.. 2021. 8. 5.
[파이썬] 유용하게 쓰이는 정규식 표현 1. 하나의 character라도 매칭되는지 [2345cde] : 2,3,4,5,c,d,e 중 하나라도 매칭되는지 조건 (2|3|4|5|c|d|e)과 같다. ex) "1 2 6" -> "1 2 6" 2.범위(range) [2-5c-e] : 2,3,4,5,c,d,e 중 하나라도 매칭되는지 ex) "1 2 9" -> "1 2 9" "2 3 7 9 " -> "2 3 7 9 " 3.[^] : not character [^2-5c-e] : 2,3,4,5,c,d,e가 아닌 charater인지 ex) "1 2 9" -> "1 2 9" "2 3 7 9 " -> "2 3 7 9 " 4. 그룹화 및 변수로 지정 ‘abcd’ -> ‘ad’ 문제 abcd에서 bc제거하기 [(a-z)]bc([a-z]) - > \1\2 = 'a.. 2021. 8. 2.