본문 바로가기
딥러닝/이론 정리

원 핫 인코딩의 한계와 Vector Embeding의 필요성

by 초보코딩러 2021. 7. 30.

 

     차이점
Categorical Value - 보통은 discrete value
 - 단어, 클래스
비슷한 값일지라도 상관 없는 의미를 지닌다.
Continuous Value -키, 몸무게 비슷한 값은 비슷한 의미를 지닌다.

 

 1.원핫 벡터의 문제점

서로 다른 두 벡터는 항상 직교(orthogonal) 한다.

-Cosine similarity가 0.(element wise 곱이 0)

 

따라서 우리는 두 샘플 사이의 유사도(거리)를 구할 수 없다.

공책 1 0    1      0        0         0          0          0        0     0
노트 3 0    0      0        1         0          0          0        0     0
지우개 11 0    0      0        0         0          0          0        1     0

 

2. Embedding Vectors의 필요성

NLP에서 단어는 categorical and discrete value의 속성을 가진다.

- 따라서 one-hot representation으로 표현되는데

-이는 실제 존재하는 단어 간 유사도를 표현 할 수 없다.

 

Word Embedding Vectors

-Word2Vec 또는 DNN을 통해 차원 축소 및 dense vector로 표현 

 

 

3.원핫 인코딩과 vector Embedding 요약

  • Categorical Value는 One-hot Encoding을 통해 벡터로 표현됨
  • 그런데 Sparse Vector는 벡터간 유사도 계산이 어렵기 때문에 Dense Vector로 표현할 필요가 있다.
  • ->Vector Embedding이 필요하다.

 

   

댓글