Paper Review/NLP
-
[논문 리뷰] Attention is All you Need (2017)Paper Review/NLP 2022. 4. 4. 11:45
1. Introduction Sequence Modeling, Transduction Problems -> RNN, long short-term memory, gated RNN -> Encoder, Decoder architecture의 발전 Recurrent model에서 입출력 sequence의 position에 따라 순차적으로 계산이 수행되어야 함 -> Sequence의 길이가 길어지면 메모리와 연산 효율에 대한 문제가 발생 Attention Mechanism은 입출력 sequence의 거리에 상관 없이 의존성을 모델링할 수 있도록 한다. 이 논문에서는 이러한 Attention mechanism에 전적으로 의존하는 Transformer라는 모델 아키텍쳐를 recurrence를 없애고 입출력 간의 g..