보통 기계 번역이나 챗봇 등에 대표적으로 사용되는
seq2seq 모델은 입력 sequence와 다른 도메인의 sequence를 출력해내며
Encoder와 Decoder로 이루어져 있다.
기본적인 모델 구조는 다음 같다.
각 encoder와 decoder엔 단어 별 LSTM 셀이 들어와있고 decoder의 경우 각 셀의 출력값이 다시 입력값으로 들어간다.
기계번역 과정에선 이렇게 사용된다.
현재 시점 t에서의 hidden state는 과거 시점의 동일한 RNN 셀에서의 모든 hidden states
값들의 영향을 누적한 것과 같다.
이렇게 번역을 한다고 하면 출력 단어로 나올 수 있는 단어는 많은데 그 주에서 가장 확률이 높은 단어로 예측한다.
예측을 위해 softmax함수가 사용되었고 출력 sequence의 각 단어들 중 확률값이 높은 단어를 출력한다.
기본적인 seq2seq 모델은 이정도로 알아 볼 수 있고
다음에 언급할 Attention Mechanism과 더불어 더 알아보도록 하자
'자연어처리 > 개념 정리' 카테고리의 다른 글
NLP Preprocessing(전처리) 간단 개념 정리 1 (0) | 2022.09.09 |
---|---|
Attention 간단 개념 정리 (1) | 2022.09.08 |
LSTM/GRU 개념 간단 정리 (0) | 2022.09.07 |
RNN 개념 간단 정리 (자연어 처리) (0) | 2022.09.06 |
Glove 개념 간단 정리 (0) | 2022.09.05 |
댓글