🌟 2주차 발표
🍒 희: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/BatchNormalization.md
- 주제: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015)
- 링크: https://arxiv.org/pdf/1502.03167.pdf
- 배경
- Internal covariate shift : 학습 중에 이전 layer의 parameter들이 변하므로, 각 input layer의 분포가 변하는 현상
- 층이 깊어질 수록 변화가 커져 학습이 어려워짐
- Internal covariate shift를 완화시키기 위해 Batch Normalization을 사용
- 주요 내용
- Batch Normalization : normalization을 모델 구조의 일부로 만들고, training mini-batch 별로 normalization 수행
- Batch Normalization으로 Internal covariate shift 감소
- Batch Normalization 장점
- gradient vanishing / exploding 문제 발생 없이, 더 큰 learning rates 사용 가능
- weight 초기화에 신경을 덜 써도 됨
- regularizer의 역할도 해서, Dropout의 필요성 낮아짐
- 성과
- 주요 용어
- SGD
- mini-batch
- internal covariate shift
- whitening
- 주제: How Does Batch Normalization Help Optimization?
- 링크: https://arxiv.org/abs/1805.11604
- 배경
- Batch Normalization은 논쟁의 여지 없이 실용적이다.
- 그러나 왜 잘 되는지에 대한 이해가 부족하다.
- 목표
- Batch Normalization과 Internal Covariate Shift의 관계?
- Batch Normalization의 진짜 효과를 찾자
- 요약
- Batch Normalization과 Internal Covariate Shift 사이에는 연관이 없음을 보인다.
- Batch Normalization이 Internal Covariate Shift를 감소시키지 않을 수 있다.
- Batch Normalization이 Optimization Problem을 Smooth하게 만든다.
- 이러한 효과는 Batch Normalization에만 국한되는 것이 아니며, 다른 Normalization도 유사한 효과를 낸다.
🍒 혜주: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/DNI.md
- 주제: Decoupled neural interfaces using synthetic gradients.
- 링크: https://arxiv.org/pdf/1608.05343.pdf
- 배경
- 기존 방향성 신경망에는 3가지 locking이 존재
- 신경망의 한 레이어에서 데이터를 처리할 때 다른 레이어가 작업을 하지 못 하는 상태를 locking이라고 표현함
Forward Locking
: 어떤 모듈도 이전 노드에 입력 데이터가 들어오기 전까지는 작업 시작이 불가함Update Locking
: forward 과정이 끝나기 전까지는 갱신 불가함Backwards Locking
: forward, backwards 과정이 끝나기 전까지는 갱신 불가함
- 문제
- 분산 환경이나 레이어에 비동기 방식을 도입하기가 어려움
- 거대 신경망의 경우 레이어 간의 동기성이 신경망의 학습 속도에 영향을 미침
- 해결
- 레이어 간의 데이터 전달을 비동기적으로 처리
- 마지막 레이어에서 에러가 도출되어 역전파 되기를 기다리는 것이 아니라, 각 레이어에서 출력 데이터가 도출되면 이를 갖고 합성 그래디언트를 만들어 레이어의 파라미터를 학습시킴
💡 3주차 발표 계획
🍑 하람
- 제목: Layer Normalization
- 링크: https://arxiv.org/pdf/1607.06450.pdf
🍑 수연
- 제목: Understanding the difficulty of training deep feedforward neural networks
- 링크: http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
📌 발표 순서 변동
1주차: 수연, 하람 / 2주차: 희, 도연, 혜주
3주차: 수연, 하람 / 4주차: 희, 도연 / 5주차: 혜주
1주차와 2주차에는 두 명, 세 명 (2 / 3) 발표를 했는데 3주차부터는 두 명, 두 명, 한 명 (2 / 2 / 1) 발표하는 것으로 변경
'Group Study (2020-2021) > Deep Learning' 카테고리의 다른 글
[DeepSleep] 논문 리뷰 스터디 4주차 (0) | 2021.07.26 |
---|---|
[DeepSleep] 논문 리뷰 스터디 3주차 (0) | 2021.07.19 |
[DeepSleep] 논문 리뷰 스터디 1주차 (0) | 2021.07.11 |
[DeepSleep] 딥러닝 스터디 4주차 (0) | 2021.06.28 |
[DeepSleep] 딥러닝 스터디 3주차 (0) | 2021.06.21 |