본문 바로가기
자연어처리/개념 정리

Sequence to Sequence 간단 개념 정리

by 아인슈페너먹고싶다 2022. 9. 7.

 

보통 기계 번역이나 챗봇 등에 대표적으로 사용되는

 

seq2seq 모델은 입력 sequence와 다른 도메인의 sequence를 출력해내며

 

Encoder와 Decoder로 이루어져 있다. 

 

 

기본적인 모델 구조는 다음 같다. 

 

 

출처 : 구름 AI 자연어처리과정

 

 

 

 

각 encoder와 decoder엔 단어 별 LSTM 셀이 들어와있고 decoder의 경우 각 셀의 출력값이 다시 입력값으로 들어간다.

 

 

 

출처 : 구름 AI 자연어처리과정

 

기계번역 과정에선 이렇게 사용된다. 

 

 

 

 

현재 시점 t에서의 hidden state는 과거 시점의 동일한 RNN 셀에서의 모든 hidden states

 

값들의 영향을 누적한 것과 같다. 

 

이렇게 번역을 한다고 하면 출력 단어로 나올 수 있는 단어는 많은데 그 주에서 가장 확률이 높은 단어로 예측한다.

 

예측을 위해 softmax함수가 사용되었고 출력 sequence의 각 단어들 중 확률값이 높은 단어를 출력한다.

 

 

 

 

기본적인 seq2seq 모델은 이정도로 알아 볼 수 있고

 

다음에 언급할 Attention Mechanism과 더불어 더 알아보도록 하자

댓글