BPE이론1 BPE알고리즘 과 텍스트 전처리 과정 1. 분절 길이에 따른 특성과 장단점 형태소 분석기로 분절된 토큰의 길이가 짧을 수록 길 수록 1. Vocabulary 크기 감소 - 대부분 토큰은 희소하지 않아 희소성 문제 감소 2.OoV(학습 시 없던 단어)가 줄어듬 3.Sequensce의 길이 (time step)가 길어짐 - 잘개 쪼개므로 토큰 개수가 늘어남 - RNN 모델에 대한 부담 증가 (극단적 형태 : sentence 단위) 1. Vocabulary 크기 증가 - 대부분 토큰이 희소해져 희소성 문제 증대 2.OoV가 늘어남 3. Sequence의 길이(time step)가 짧아짐 -잘개 쪼개므로 토큰 개수가 줄어듦 - RNN 모델에 대한 부담 감소 2. 정보량에 따른 이상적인 형태 빈도가 높은 문장의 경우, 문장 단위의 token으로 나타.. 2021. 8. 5. 이전 1 다음