본문 바로가기

딥러닝/이론 정리

원 핫 인코딩의 한계와 Vector Embeding의 필요성

by 초보코딩러 2021. 7. 30.

		차이점
Categorical Value	- 보통은 discrete value - 단어, 클래스	비슷한 값일지라도 상관 없는 의미를 지닌다.
Continuous Value	-키, 몸무게	비슷한 값은 비슷한 의미를 지닌다.

1.원핫 벡터의 문제점

서로 다른 두 벡터는 항상 직교(orthogonal) 한다.

-Cosine similarity가 0.(element wise 곱이 0)

따라서 우리는 두 샘플 사이의 유사도(거리)를 구할 수 없다.

공책	1	0 1 0 0 0 0 0 0 0
노트	3	0 0 0 1 0 0 0 0 0
지우개	11	0 0 0 0 0 0 0 1 0

2. Embedding Vectors의 필요성

NLP에서 단어는 categorical and discrete value의 속성을 가진다.

- 따라서 one-hot representation으로 표현되는데

-이는 실제 존재하는 단어 간 유사도를 표현 할 수 없다.

Word Embedding Vectors

-Word2Vec 또는 DNN을 통해 차원 축소 및 dense vector로 표현

3.원핫 인코딩과 vector Embedding 요약

Categorical Value는 One-hot Encoding을 통해 벡터로 표현됨
그런데 Sparse Vector는 벡터간 유사도 계산이 어렵기 때문에 Dense Vector로 표현할 필요가 있다.
->Vector Embedding이 필요하다.

'딥러닝 > 이론 정리' 카테고리의 다른 글

BPE알고리즘 과 텍스트 전처리 과정 (0)	2021.08.05
NLP의 기본 자연어 처리 (0)	2021.08.02
파이토치 오토인코더 이론에 대해 알아보자 (0)	2021.07.30
딥러닝 입문( DNN 이진분류) (0)	2021.07.22
딥 러닝 차근차근 이론 정리. (0)	2021.07.02

댓글

티스토리툴바