NLP의 기본 자연어 처리

1.NLP

사람의 생각(의도, 정보)을 컴퓨터에게 전달하는 방법
Naive interface
사람이 이해할수 있지만, 엄격한 문법과 모호성이 없는 형태의 전달 방식
인공언어

Better interface

- 사람이 실제 사용하는 형태에 가까운 전달 방식

- 자연어 처리

자연어(Natural Language)란?

- 사람들이 일상적으로 쓰는 언어

- 인공적으로 만들어진 언어인 인공 언어와 구분하여 부르는 개념

NLP(Natural Language Processing)

- 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정(NLU)

- 더 나아가 컴퓨터가 이해할 수 있는 값을 사람이 이해하도록 바꾸는 과정(NLG)

2. Traditional NLP vs NLP with Deep Learining

Traditional NLP	1.단어를 symbolic 데이터로 취급 (빨강,분홍,파랑 모두 다름) 2. 여러 sub-module들을 통해 전체 모델이 구성 각각의 모듈을 지날 때마다 에러가 누적됨
NLP with Deep Learining	단어를 continuous value로 변환(빨강과 분홍은 비슷함) End to end 시스템 구축 - 하나의 모델로 구성되어 있어서 에러가 누적되지 않음

3. Paradigm shift in NLP

효율적인 Embedding을 통한 성능 개선
단어, 문장, 컨텍스트 임베딩 (Word Embedding)
End-to-end 구성으로 인한 효율/성능 개선
가볍고 빠르다
기계번역의 경우, 다른 분야보다 먼저 성공적으로 사용화 됨

4. GPT 1

1억 1700만 개의 파라미터를 가진 자연어 처리 모델

문장의 모든 토큰들을 취합해서, 적절한 문장을 만들어 내는것
Generative Pretrained Transformer

5. GPT 3

1750억 개의 파라미터(GPT 2의 100배)를 가진 자연어처리 모델(데이터셋: 570GB)

● GPT 3가 할 수 있는 일
- 번역/작문/언어 관련 문제풀이/감성분석
- 간단한 웹 코딩/사칙연산

● 트랜스포머(transformers)
- 2017년 구글 브레인의 보고서 “ALenMon is all you need’.
- 트랜스포머는 다양한 모델의 밑거름이 됨.
✔ 구글의 BERT, 마이크로소프트의 Turing-NLG(170억 개 매개변수)

● 5000억 개의 token을 포함한 데이터로 학습
- 인터넷에서 크롤링 데이터(필터링 작업) + 위키피디아 데이터
- raw 데이터가 45 TB였고, 필터링한 데이터는 570 GB

'딥러닝 > 이론 정리' 카테고리의 다른 글

NLP 자연어를 표현하기 위한 벡터 (0)	2021.09.14
BPE알고리즘 과 텍스트 전처리 과정 (0)	2021.08.05
파이토치 오토인코더 이론에 대해 알아보자 (0)	2021.07.30
원 핫 인코딩의 한계와 Vector Embeding의 필요성 (0)	2021.07.30
딥러닝 입문( DNN 이진분류) (0)	2021.07.22

시작 반 코딩

NLP의 기본 자연어 처리

1.NLP

2. Traditional NLP vs NLP with Deep Learining

Traditional NLP

NLP with Deep Learining

3. Paradigm shift in NLP

4. GPT 1

5. GPT 3

'딥러닝 > 이론 정리' 카테고리의 다른 글

댓글

티스토리툴바

NLP의 기본 자연어 처리

1.NLP

2. Traditional NLP vs NLP with Deep Learining

Traditional NLP

NLP with Deep Learining

3. Paradigm shift in NLP

4. GPT 1

5. GPT 3

'딥러닝 > 이론 정리' 카테고리의 다른 글

관련글

댓글

티스토리툴바