차이점 | ||
Categorical Value | - 보통은 discrete value - 단어, 클래스 |
비슷한 값일지라도 상관 없는 의미를 지닌다. |
Continuous Value | -키, 몸무게 | 비슷한 값은 비슷한 의미를 지닌다. |
1.원핫 벡터의 문제점
서로 다른 두 벡터는 항상 직교(orthogonal) 한다.
-Cosine similarity가 0.(element wise 곱이 0)
따라서 우리는 두 샘플 사이의 유사도(거리)를 구할 수 없다.
공책 | 1 | 0 1 0 0 0 0 0 0 0 |
노트 | 3 | 0 0 0 1 0 0 0 0 0 |
지우개 | 11 | 0 0 0 0 0 0 0 1 0 |
2. Embedding Vectors의 필요성
NLP에서 단어는 categorical and discrete value의 속성을 가진다.
- 따라서 one-hot representation으로 표현되는데
-이는 실제 존재하는 단어 간 유사도를 표현 할 수 없다.
Word Embedding Vectors
-Word2Vec 또는 DNN을 통해 차원 축소 및 dense vector로 표현
3.원핫 인코딩과 vector Embedding 요약
- Categorical Value는 One-hot Encoding을 통해 벡터로 표현됨
- 그런데 Sparse Vector는 벡터간 유사도 계산이 어렵기 때문에 Dense Vector로 표현할 필요가 있다.
- ->Vector Embedding이 필요하다.
'딥러닝 > 이론 정리' 카테고리의 다른 글
BPE알고리즘 과 텍스트 전처리 과정 (0) | 2021.08.05 |
---|---|
NLP의 기본 자연어 처리 (0) | 2021.08.02 |
파이토치 오토인코더 이론에 대해 알아보자 (0) | 2021.07.30 |
딥러닝 입문( DNN 이진분류) (0) | 2021.07.22 |
딥 러닝 차근차근 이론 정리. (0) | 2021.07.02 |
댓글