본문 바로가기
딥러닝/이론 정리

NLP의 기본 자연어 처리

by 초보코딩러 2021. 8. 2.

1.NLP

  • 사람의 생각(의도, 정보)을 컴퓨터에게 전달하는 방법
  • Naive interface
  • 사람이 이해할수 있지만, 엄격한 문법과 모호성이 없는 형태의 전달 방식
  • 인공언어

Better interface

- 사람이 실제 사용하는 형태에 가까운 전달 방식

- 자연어 처리

 

자연어(Natural Language)란?

- 사람들이 일상적으로 쓰는 언어

- 인공적으로 만들어진 언어인 인공 언어와 구분하여 부르는 개념

 

NLP(Natural Language Processing)

- 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정(NLU)

- 더 나아가 컴퓨터가 이해할 수 있는 값을 사람이 이해하도록 바꾸는 과정(NLG)

 

2. Traditional NLP  vs NLP with Deep Learining

Traditional NLP

1.단어를 symbolic 데이터로 취급 (빨강,분홍,파랑 모두 다름)
2. 여러 sub-module들을 통해 전체 모델이 구성
각각의 모듈을 지날 때마다 에러가 누적됨

NLP with Deep Learining

단어를 continuous value로 변환(빨강과 분홍은 비슷함)
End to end 시스템 구축
- 하나의 모델로 구성되어 있어서 에러가 누적되지 않음

3. Paradigm shift in NLP

  • 효율적인 Embedding을 통한 성능 개선
  • 단어, 문장, 컨텍스트 임베딩 (Word Embedding)
  • End-to-end 구성으로 인한 효율/성능 개선
  • 가볍고 빠르다
  • 기계번역의 경우, 다른 분야보다 먼저 성공적으로 사용화 됨

4. GPT 1

1억 1700만 개의 파라미터를 가진 자연어 처리 모델

  • 문장의 모든 토큰들을 취합해서, 적절한 문장을 만들어 내는것
  • Generative Pretrained Transformer

5. GPT 3

1750억 개의 파라미터(GPT 2의 100배)를 가진 자연어처리 모델(데이터셋: 570GB)

● GPT 3가 할 수 있는 일
- 번역/작문/언어 관련 문제풀이/감성분석
- 간단한 웹 코딩/사칙연산

● 트랜스포머(transformers)
- 2017년 구글 브레인의 보고서 “ALenMon is all you need’.
- 트랜스포머는 다양한 모델의 밑거름이 됨.
✔ 구글의 BERT, 마이크로소프트의 Turing-NLG(170억 개 매개변수)

● 5000억 개의 token을 포함한 데이터로 학습
- 인터넷에서 크롤링 데이터(필터링 작업) + 위키피디아 데이터
- raw 데이터가 45 TB였고, 필터링한 데이터는 570 GB

댓글