Group Study (2020-2021)/Deep Learning

[DeepSleep] 논문 리뷰 스터디 2주차

희._. 2021. 7. 12. 17:32

🌟 2주차 발표

🍒 희: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/BatchNormalization.md

  • 주제: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015)
  • 링크: https://arxiv.org/pdf/1502.03167.pdf
  • 배경
    • Internal covariate shift : 학습 중에 이전 layer의 parameter들이 변하므로, 각 input layer의 분포가 변하는 현상
    • 층이 깊어질 수록 변화가 커져 학습이 어려워짐
    • Internal covariate shift를 완화시키기 위해 Batch Normalization을 사용
  • 주요 내용
    • Batch Normalization : normalization을 모델 구조의 일부로 만들고, training mini-batch 별로 normalization 수행
    • Batch Normalization으로 Internal covariate shift 감소
    • Batch Normalization 장점
      • gradient vanishing / exploding 문제 발생 없이, 더 큰 learning rates 사용 가능
      • weight 초기화에 신경을 덜 써도 됨
      • regularizer의 역할도 해서, Dropout의 필요성 낮아짐
    • 성과
  • 주요 용어
    • SGD
    • mini-batch
    • internal covariate shift
    • whitening

🍒 도연: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/How%20Does%20Batch%20Normalization%20Help%20Optimization.pdf

  • 주제: How Does Batch Normalization Help Optimization?
  • 링크: https://arxiv.org/abs/1805.11604
  • 배경
    • Batch Normalization은 논쟁의 여지 없이 실용적이다.
    • 그러나 왜 잘 되는지에 대한 이해가 부족하다.
  • 목표
    • Batch Normalization과 Internal Covariate Shift의 관계?
    • Batch Normalization의 진짜 효과를 찾자
  • 요약
    • Batch Normalization과 Internal Covariate Shift 사이에는 연관이 없음을 보인다.
    • Batch Normalization이 Internal Covariate Shift를 감소시키지 않을 수 있다.
    • Batch Normalization이 Optimization Problem을 Smooth하게 만든다.
    • 이러한 효과는 Batch Normalization에만 국한되는 것이 아니며, 다른 Normalization도 유사한 효과를 낸다.

🍒 혜주: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/DNI.md

  • 주제: Decoupled neural interfaces using synthetic gradients.
  • 링크: https://arxiv.org/pdf/1608.05343.pdf
  • 배경
    • 기존 방향성 신경망에는 3가지 locking이 존재
    • 신경망의 한 레이어에서 데이터를 처리할 때 다른 레이어가 작업을 하지 못 하는 상태를 locking이라고 표현함
    • Forward Locking: 어떤 모듈도 이전 노드에 입력 데이터가 들어오기 전까지는 작업 시작이 불가함
    • Update Locking: forward 과정이 끝나기 전까지는 갱신 불가함
    • Backwards Locking: forward, backwards 과정이 끝나기 전까지는 갱신 불가함
  • 문제
    • 분산 환경이나 레이어에 비동기 방식을 도입하기가 어려움
    • 거대 신경망의 경우 레이어 간의 동기성이 신경망의 학습 속도에 영향을 미침
  • 해결
    • 레이어 간의 데이터 전달을 비동기적으로 처리
    • 마지막 레이어에서 에러가 도출되어 역전파 되기를 기다리는 것이 아니라, 각 레이어에서 출력 데이터가 도출되면 이를 갖고 합성 그래디언트를 만들어 레이어의 파라미터를 학습시킴

💡 3주차 발표 계획

🍑 하람

🍑 수연

📌 발표 순서 변동

  • 1주차: 수연, 하람 / 2주차: 희, 도연, 혜주

  • 3주차: 수연, 하람 / 4주차: 희, 도연 / 5주차: 혜주

    1주차와 2주차에는 두 명, 세 명 (2 / 3) 발표를 했는데 3주차부터는 두 명, 두 명, 한 명 (2 / 2 / 1) 발표하는 것으로 변경