요즘 아직도 뉴진스의 Attention이라는 노래가 차트 상위권에 있는데 (음원공개 전 부터 좋았음)
이 노래를 들을 때 마다 이 Attention 모델이 떠올라서 괴롭다 ㅎㅎ ㅠ
앞서 알아보았던 seq2seq 모델은 정보 손실 및 기울기 소실 문제가 발생한다.
따라서 input sequence가 한없이 길어지면 output의 정확도가 떨어지는 문제를 보정하기위해
Attention Mechanism이 등장했다.
Attention의 핵심은 input sequence 마지막 벡터에 모든 정보를 담기가 버거워
모든 input sequence를 참고하여 정보를 조합해 output을 추출한다는 것이다.
여기서 중요한 점은 전부 동일 비율로 참고하는 것이 아닌 연관이 있는 부분을 좀 더
주의깊게 (Attention) 본다는 것이다.
Attention 모델의 메커니즘은 다음과 같다
구름 AI 자연어처리 과정에서는 간단하게만 다루었던 것 같은데
조금, 아주 조금만 더 살펴 보자면
Attention Value와 디코더의 hidden state를 연결해 출력값을 구할 수 있다.
여기서 Attention Value는 어텐션 함수, Attention(Q, K, V)로 구할 수 있는데 각각은 다음과 같다.
Q, Query는 t 시점의 디코더 셀에서의 hidden state
K, Keys는 모든 시점의 인코더 셀의 hidden states
V, Values는 모든 시점의 인코더 셀의 hidden states
Attention Score, Attention Distribution, Attention Value 등 구할 값들이나 다양한 종류의 Attention이 있는데
수업 시간에 다루거나 논문 리뷰를 할때 정리할 계획이다.
꿑!
'자연어처리 > 개념 정리' 카테고리의 다른 글
Tokenization 전처리 간단 개념 정리 2 (0) | 2022.09.10 |
---|---|
NLP Preprocessing(전처리) 간단 개념 정리 1 (0) | 2022.09.09 |
Sequence to Sequence 간단 개념 정리 (2) | 2022.09.07 |
LSTM/GRU 개념 간단 정리 (0) | 2022.09.07 |
RNN 개념 간단 정리 (자연어 처리) (0) | 2022.09.06 |
댓글