앞서 다루었던 Word2Vec의 예측 기반 유추 방법론에
기존의 통계 정보를 고려한 빈도 기반 방법론을 더해
2014년에 미국 스탠포드대학에서 만들어진 것이 Glove다.
Glove의 핵심 개념은
워드 임베딩 된 중심 단어와 주변 단어 벡터의 내적이
전체 문장의 동시 등장 확률이 되도록 만드는 것이다.
선행해야할 두 가지 개념이 있다.
☆ 동시 등장 행렬
동시 등장 행렬은 단어의 윈도우 크기 내에서 다른 특정 단어가 등장한 횟수를 기재한 행렬을 말한다.
유명한 예시를 보자면
- I like deep learning
- I like NLP
- I enjoy flying
3가지 문장에서 윈도우 크기가 1인 동시 등장 행렬은 다음과 같다.
very very smart와 같은... 반복이 없는이상 전치해도 동일한 행렬
☆ 동시 등장 확률
동시 등장 확률은 동시 등장 행렬로부터 특정 단어(i)의 전체 등장 횟수를 세고
그 단어가 등장 했을 때, 다른 특정 단어(k)가 등장한 횟수를 계산한 조건부 확률이다.
P(k | i )
여기서 i를 중심단어, k를 주변단어라고 본다면, 위 동시 등장 행렬에서 i행의 총합을 분모로,
i행 k열의 값을 분자로 하면 된다.
다음은 Glove 제안 논문에서 사용된 유명 예시이다.
☆ Loss function
실제 벡터의 내적값과 예측 확률간의 차이를 계산하는 손실함수인데
다른 모델에서도 그랬듯이 실제 값과 예측값을 줄이기 위해서 손실함수를 최소화 하는 것이 중요하다.
여기서 빈도 수가 매우 낮은 경우에는 정보에 도움이 되지 않아서 가중치를 주게 되는데
그 가중치 함수는 다음과 같다.
값이 작아지고 커지면 상대적으로 함수값도 작아지고 커지지만
특정 수치 이상에서는 최대값이 정해져 있다.
아주 간단하게 (수업에서 배운 간단한 수준으로) 개념을 정리해보았다.
다음엔 RNN을 비롯한 개념들과
Word embedding 기법 관련 실습을 진행해볼 예정이다.
'자연어처리 > 개념 정리' 카테고리의 다른 글
LSTM/GRU 개념 간단 정리 (0) | 2022.09.07 |
---|---|
RNN 개념 간단 정리 (자연어 처리) (0) | 2022.09.06 |
Word2Vec 간단 개념 정리 (0) | 2022.08.31 |
Word Embedding(워드 임베딩) 개념 간단 정리 (0) | 2022.08.31 |
Topic Modeling (토픽모델링) 개념 정리 (0) | 2022.08.30 |
댓글