📅 7주차 발표 내용
📝 Attention Is All You Need
🙋 수연
- 논문 링크: https://arxiv.org/pdf/1706.03762.pdf
- 주제: RNN이나 CNN 없이, Attention만을 사용한 새로운 모델(Transformer) 제시
- 배경: 기존의 seq2seq 모델은 RNN을 이용하였는데, 순환 모델의 순차적인 특징으로 인해 학습 데이터의 병렬 처리가 불가능했으며 긴 시퀀스를 처리하는데 치명적. 그래서 Attention으로 이를 보정하였으나 여전히 RNN을 사용해야했기에 단점 존재. Attention만 이용하면 어떨까?
- 내용:
- recurrence를 사용하지 않고, Attention에 전적으로 의존하여 input과 output 간의 전역 의존성을 나타내는 기법
- multi-head self-attention을 이용해 sequential computation을 줄이고 더 많은 부분을 병렬처리가 가능하게 함
- 모델 구조
- Self-Attention을 사용하는 이유: 계산 속도 감소, 병렬 처리 가능, long-range dependency 처리 용이
- 발표자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week7/Attention%20Is%20All%20You%20Need.pdf
📅 8주차 발표 계획
🌟 GPT & BERT
🙋 희
- 📝 Improving Language Understanding by Generative Pre-Training
- 논문 링크: https://arxiv.org/pdf/1706.03762.pdf
🙋 하람
- 📝 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 논문 링크: https://arxiv.org/pdf/1810.04805.pdf
'Group Study (2020-2021) > Deep Learning' 카테고리의 다른 글
[DeepSleep] 논문 리뷰 스터디 8주차 (0) | 2021.08.23 |
---|---|
[DeepSleep] 논문 리뷰 스터디 6주차 (0) | 2021.08.16 |
[DeepSleep] 논문 리뷰 스터디 5주차 / 이후 계획 (0) | 2021.08.02 |
[DeepSleep] 논문 리뷰 스터디 4주차 (0) | 2021.07.26 |
[DeepSleep] 논문 리뷰 스터디 3주차 (0) | 2021.07.19 |