Sequence to Sequence 간단 개념 정리

보통 기계 번역이나 챗봇 등에 대표적으로 사용되는

seq2seq 모델은 입력 sequence와 다른 도메인의 sequence를 출력해내며

Encoder와 Decoder로 이루어져 있다.

기본적인 모델 구조는 다음 같다.

각 encoder와 decoder엔 단어 별 LSTM 셀이 들어와있고 decoder의 경우 각 셀의 출력값이 다시 입력값으로 들어간다.

기계번역 과정에선 이렇게 사용된다.

현재 시점 t에서의 hidden state는 과거 시점의 동일한 RNN 셀에서의 모든 hidden states

값들의 영향을 누적한 것과 같다.

이렇게 번역을 한다고 하면 출력 단어로 나올 수 있는 단어는 많은데 그 주에서 가장 확률이 높은 단어로 예측한다.

예측을 위해 softmax함수가 사용되었고 출력 sequence의 각 단어들 중 확률값이 높은 단어를 출력한다.

기본적인 seq2seq 모델은 이정도로 알아 볼 수 있고

다음에 언급할 Attention Mechanism과 더불어 더 알아보도록 하자

NLP Preprocessing(전처리) 간단 개념 정리 1 (0)	2022.09.09
Attention 간단 개념 정리 (1)	2022.09.08
LSTM/GRU 개념 간단 정리 (0)	2022.09.07
RNN 개념 간단 정리 (자연어 처리) (0)	2022.09.06
Glove 개념 간단 정리 (0)	2022.09.05

니은니은니은 데이터공부