본문 바로가기

딥러닝7

NLP 자연어를 표현하기 위한 벡터 1.TOKENIZER(라이브러리 종류 소개) 1-1. English : SPACY, NLTK -> 라이브러리를 주로 이용 2-1. Korean : KONLPy(Hannaum, Kkma, Komoran, Twitter) MECAB, KHAIII -> 라이브러리 2. Word2Vec Word2Vec은 2가지 종류가 있다. 1. CBOW : 주변 단어들을 이용해서 중심 단어를 예측 구조 2. Skip-gram : 중심단어를 이용해서 주변단어를 예측 하는 구조 3. GLOVE : co-occurrence를 반영해서 학습을 한다. 4. FASTTEXT 토큰들이 적어질 수록 말뭉치도 적어지기 때문에 학습할 양도 적어진다 이를 기반으로 한 FASTTEXT 2021. 9. 14.
BPE알고리즘 과 텍스트 전처리 과정 1. 분절 길이에 따른 특성과 장단점 형태소 분석기로 분절된 토큰의 길이가 짧을 수록 길 수록 1. Vocabulary 크기 감소 - 대부분 토큰은 희소하지 않아 희소성 문제 감소 2.OoV(학습 시 없던 단어)가 줄어듬 3.Sequensce의 길이 (time step)가 길어짐 - 잘개 쪼개므로 토큰 개수가 늘어남 - RNN 모델에 대한 부담 증가 (극단적 형태 : sentence 단위) 1. Vocabulary 크기 증가 - 대부분 토큰이 희소해져 희소성 문제 증대 2.OoV가 늘어남 3. Sequence의 길이(time step)가 짧아짐 -잘개 쪼개므로 토큰 개수가 줄어듦 - RNN 모델에 대한 부담 감소 2. 정보량에 따른 이상적인 형태 빈도가 높은 문장의 경우, 문장 단위의 token으로 나타.. 2021. 8. 5.
NLP의 기본 자연어 처리 1.NLP 사람의 생각(의도, 정보)을 컴퓨터에게 전달하는 방법 Naive interface 사람이 이해할수 있지만, 엄격한 문법과 모호성이 없는 형태의 전달 방식 인공언어 Better interface - 사람이 실제 사용하는 형태에 가까운 전달 방식 - 자연어 처리 자연어(Natural Language)란? - 사람들이 일상적으로 쓰는 언어 - 인공적으로 만들어진 언어인 인공 언어와 구분하여 부르는 개념 NLP(Natural Language Processing) - 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정(NLU) - 더 나아가 컴퓨터가 이해할 수 있는 값을 사람이 이해하도록 바꾸는 과정(NLG) 2. Traditional NLP vs NLP with Deep Learin.. 2021. 8. 2.
파이토치 오토인코더 이론에 대해 알아보자 1. 오토인코더란 정보가 차원 축소되는 병목 구간(z)을 통과하면서 자동적으로 특징을 추출하는 방식으로 학습 딥러닝의 특성을 잘 반영한 학습 알고리즘 인코더(encoder)와 디코더(decoder)를 통해 압축과 해제를 반복하며 특징 추출을 자동으로 학습한다. 인코더는 입력(x)의 정보를 최대한 보존하도록 손실 압축을 수행(필요 없는 정보는 버린다.) 디코더는 중간 결과물(z)의 정보를 입력(x)과 같아지도록 압축 해제(복원)를 수행 복원을 성공적으로 하기위해, 오토인코더(autoencoder)는 특징(feature)을 추출하는 방법으로 자동학습 2. Encoder 복원에 필요한 정보를 중심으로 손실 압축 수행 필요 없는 정보 (뻔한 특징)는 버릴 수도 있다 ex) 일반적인 사람의 얼굴을 학습할 때: 사.. 2021. 7. 30.