Word Embedding 이란?
워드 임베딩(Word Embedding) 이란 자연어 처리(NLP)에서 사람이 사용하는 단어를 컴퓨터가 이해할 수 있도록 숫자의 나열, 즉 벡터(vector)로 변환하는 기술이다.
여기에는 두 가지 타입이 존재한다.
1. count of frequency
이 방식은 대규모 텍스트(Corpus)에서 각 단어가 어떤 단어와 함께 얼마나 자주 등장하는지를 세고, 이 통계 정보를 바탕으로 단어의 의미를 벡터로 표현한다. 즉 비슷한
앞서 포스팅했던 one-hot encoding, bag of words, tf-idf 기법은 모두 이 방식이다.
2. deep learning trained model
이 방식은 신경망(딥러닝) 모델을 사용하여 특정 단어 주변의 단어들을 예측하는 과정에서 학습되는 가중치를 단어 벡터로 사용한다.
Word2Vec 방식이 있으며 여기에도 두 가지 타입이 있다.
1. CBoW (continuous bag of words)
2. Skipgram
(두 가지는 다음 포스팅에서 알아보자.)
Word2Vec 이란?
Word2Vec의 가장 중요한 아이디어는 분포 가설(Distributional Hypothesis)에 기반한다.
이는 비슷한 문맥에서 등장하는 단어는 비슷한 의미를 가질 것이다 라는 생각이다. 예를 들어, '강아지'라는 단어는 '귀엽다', '산책', '멍멍' 등의 단어와 함께 자주 등장할 것이고, '고양이' 역시 '귀엽다', '산책', '야옹' 등 비슷한 주변 단어를 가질 것이다. Word2Vec은 이처럼 주변 단어(문맥)와의 관계를 학습하여 단어의 의미를 벡터 공간에 표현한다.
Word2Vec은 딥러닝처럼 복잡하고 깊은 신경망이 아닌, 하나의 은닉층(Hidden Layer)을 가진 얕은 신경망(Shallow Neural Network)을 사용한다.
아래와 같이 단어들을 특징으로 분류할 수 있다.

이렇게 벡터로 표현했을 경우 king - boy + queen = girl 이라는 결과가 나올 수 있다.
이처럼 단어의 의미, 유사성 등을 판단해서 단어 사이의 복잡한 관계를 파악할 수 있는 것이다.
'AI LLM' 카테고리의 다른 글
| ANN - GridSearchCV를 활용한 최적의 layer, 뉴런 개수 찾기 (0) | 2025.06.14 |
|---|---|
| Cbow, skipgram (0) | 2025.06.07 |
| [NLP - 벡터 변환 알고리즘] TF-IDF (0) | 2025.05.25 |
| [NLP - 벡터 변환 알고리즘] Bag of Words, N-Gram (0) | 2025.05.22 |
| [NLP - 벡터 변환 알고리즘] One-Hot Encoding (0) | 2025.05.22 |