DeepSleep 3

[DeepSleep] 논문 리뷰 스터디 6주차

📖 6주차 발표 내용 ❄️ 혜주 선정한 논문: Neural Machine Translation by Jointly Learning to Align and Translate [pdf] 발표 자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week6/align.md 주제: Alignment model 의 등장과 입력 문장 벡터의 연관 순위 책정에 따른 번역 효율 향상 배경: 기존처럼 입력 문장을 고정된 길이의 context vector 로 변환할 시, 길이가 긴 입력 문장에 대해서는 번역 성능이 급격히 저하되는 문제점이 발생 내용 decoder 에서 output 을 출력할 때, 입력 문장을 순차적으로 탐색해서 현재 생성하려..

[DeepSleep] 논문 리뷰 스터디 3주차

📚 3주차 발표 내용 💡 하람 주제 : Layer Normalization 링크 : https://arxiv.org/pdf/1607.06450.pdf 배경 Batch Normalization을 이용하면 feed-forward neural network 에서 학습시간을 줄일 수 있다. 하지만, Batch Normalization의 효과는 batch size 에 따라 달라지고, Batch Normalization을 RNN에 적용하는 방법이 명확하지 않다. 내용 BN은 "각 feature의 평균과 분산"을 구해서 batch에 있는 "각 feature를 정규화" 한다. 반면 LN은 "각 input의 feature들에 대한 평균과 분산"을 구해서 batch에 있는 "각 input을 정규화" 한다. 효과 Batch..

[DeepSleep] 논문 리뷰 스터디 1주차

🍒 하람: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week1/resnet.md 주제: Deep Residual Learning for Image Recognition (2015, ResNet) 링크 : https://arxiv.org/pdf/1512.03385.pdf 개요/배경 Batchnorm 도입 이후에 10개 이상의 레이어를 학습시킬 수 있게 되었다. 층이 많은 모델일수록 층이 적은 모델과 비슷하거나 더 좋은 성능이 나와야 한다고 기대하였다 하지만 여전히 깊은 모델은 얕은 모델보다 성능이 좋지 않았다. 일부 레이어가 identity function (f(x)=x) 를 잘 배울 수 있도록 하면 어떨까? 목표 : 모..