본문 바로가기
자연어처리/개념 정리

Attention 간단 개념 정리

by 아인슈페너먹고싶다 2022. 9. 8.

요즘 아직도 뉴진스의 Attention이라는 노래가 차트 상위권에 있는데 (음원공개 전 부터 좋았음)

 

이 노래를 들을 때 마다 이 Attention 모델이 떠올라서 괴롭다 ㅎㅎ ㅠ

 

 

 


 

 

앞서 알아보았던 seq2seq 모델은 정보 손실 및 기울기 소실 문제가 발생한다.

 

따라서 input sequence가 한없이 길어지면 output의 정확도가 떨어지는 문제를 보정하기위해

 

Attention Mechanism이 등장했다.

 

 

 

Attention의 핵심은 input sequence 마지막 벡터에 모든 정보를 담기가 버거워

 

모든 input sequence를 참고하여 정보를 조합해 output을 추출한다는 것이다.

 

여기서 중요한 점은 전부 동일 비율로 참고하는 것이 아닌 연관이 있는 부분을 좀 더

 

주의깊게 (Attention) 본다는 것이다.

 

 

 

 

Attention 모델의 메커니즘은 다음과 같다

 

 

 

 

출처 : 구름 AI 자연어 처리 과정

 

 

 

 

 

구름 AI 자연어처리 과정에서는 간단하게만 다루었던 것 같은데

 

조금, 아주 조금만 더 살펴 보자면

 

Attention Value와 디코더의 hidden state를 연결해 출력값을 구할 수 있다.

 

 

 

 

여기서 Attention Value는  어텐션 함수, Attention(Q, K, V)로 구할 수 있는데 각각은 다음과 같다.

 

Q, Query는 t 시점의 디코더 셀에서의 hidden state

 

K, Keys는 모든 시점의 인코더 셀의 hidden states

 

V, Values는 모든 시점의 인코더 셀의 hidden states

 

 

 

Attention Score, Attention Distribution, Attention Value 등 구할 값들이나 다양한 종류의 Attention이 있는데

 

수업 시간에 다루거나 논문 리뷰를 할때 정리할 계획이다. 

 

꿑!

댓글