Group Study (2020-2021)/Deep Learning 13

[DeepSleep] 논문 리뷰 스터디 8주차

🚀 8주차 발표 내용 📝 GPT-1 Improving Language Understanding by Generative Pre-Training 🙋‍♀️ 희 논문 링크 : https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 주제 : GPT-1, Generative 사전 학습을 통한 언어 이해 개선 목표 : 약간의 fine-tuning만으로 다양한 task에 잘 전이하는, 범용적인(universal) representations 학습하기 구조 : 기존 Transformer의 decoder를 12개 쌓은 구조 (decoder에서 Multi-Head Attention 제외) Unsupervised..

[DeepSleep] 논문 리뷰 스터디 7주차

📅 7주차 발표 내용 📝 Attention Is All You Need 🙋 수연 논문 링크: https://arxiv.org/pdf/1706.03762.pdf 주제: RNN이나 CNN 없이, Attention만을 사용한 새로운 모델(Transformer) 제시 배경: 기존의 seq2seq 모델은 RNN을 이용하였는데, 순환 모델의 순차적인 특징으로 인해 학습 데이터의 병렬 처리가 불가능했으며 긴 시퀀스를 처리하는데 치명적. 그래서 Attention으로 이를 보정하였으나 여전히 RNN을 사용해야했기에 단점 존재. Attention만 이용하면 어떨까? 내용: recurrence를 사용하지 않고, Attention에 전적으로 의존하여 input과 output 간의 전역 의존성을 나타내는 기법 multi-hea..

[DeepSleep] 논문 리뷰 스터디 6주차

📖 6주차 발표 내용 ❄️ 혜주 선정한 논문: Neural Machine Translation by Jointly Learning to Align and Translate [pdf] 발표 자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week6/align.md 주제: Alignment model 의 등장과 입력 문장 벡터의 연관 순위 책정에 따른 번역 효율 향상 배경: 기존처럼 입력 문장을 고정된 길이의 context vector 로 변환할 시, 길이가 긴 입력 문장에 대해서는 번역 성능이 급격히 저하되는 문제점이 발생 내용 decoder 에서 output 을 출력할 때, 입력 문장을 순차적으로 탐색해서 현재 생성하려..

[DeepSleep] 논문 리뷰 스터디 5주차 / 이후 계획

📅 5주차 발표 내용 📝 Sequence to sequence learning with neural networks 🙋 혜주 링크: https://arxiv.org/pdf/1409.3215.pdf 주제: 두 개의 LSTM 모델을 활용한 기존 기계 번역의 한계 개선 배경: 기존의 SMT와 RNN 방식으로는 긴 문장 처리와 어순 구조 변화에 대응하기 어렵다는 단점이 존재 내용 Encoder와 Decoder, 즉 2개의 LSTM을 사용하고 이를 다시 4개의 layer로 쌓아 모델 생성 => 파라미터의 수가 늘어나 깊은 학습 가능 입력 문장의 순서를 뒤집었을 때 결과가 더 좋음 발표자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/mai..

[DeepSleep] 논문 리뷰 스터디 4주차

📁 4주차 발표 내용 📄 희 주제: NLP-RNN 전반적인 개념 정리 내용 NLP Pipeline 언어 모델(Language Model) 통계적 언어 모델 인공 신경망 모델 RNN LSTM GRU Seq2Seq Attention Mechanism Transformer 단어의 표현 방법(Word Representation) 임베딩 기법 발표자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week4/NLP-RNN.md 📄 도연 제목: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation 링크: https://a..

[DeepSleep] 논문 리뷰 스터디 3주차

📚 3주차 발표 내용 💡 하람 주제 : Layer Normalization 링크 : https://arxiv.org/pdf/1607.06450.pdf 배경 Batch Normalization을 이용하면 feed-forward neural network 에서 학습시간을 줄일 수 있다. 하지만, Batch Normalization의 효과는 batch size 에 따라 달라지고, Batch Normalization을 RNN에 적용하는 방법이 명확하지 않다. 내용 BN은 "각 feature의 평균과 분산"을 구해서 batch에 있는 "각 feature를 정규화" 한다. 반면 LN은 "각 input의 feature들에 대한 평균과 분산"을 구해서 batch에 있는 "각 input을 정규화" 한다. 효과 Batch..

[DeepSleep] 논문 리뷰 스터디 2주차

🌟 2주차 발표 🍒 희: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/BatchNormalization.md 주제: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015) 링크: https://arxiv.org/pdf/1502.03167.pdf 배경 Internal covariate shift : 학습 중에 이전 layer의 parameter들이 변하므로, 각 input layer의 분포가 변하는 현상 층이 깊어질 수록 변화가 커져 학습이 어려워짐 Internal covariate shift..

[DeepSleep] 논문 리뷰 스터디 1주차

🍒 하람: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week1/resnet.md 주제: Deep Residual Learning for Image Recognition (2015, ResNet) 링크 : https://arxiv.org/pdf/1512.03385.pdf 개요/배경 Batchnorm 도입 이후에 10개 이상의 레이어를 학습시킬 수 있게 되었다. 층이 많은 모델일수록 층이 적은 모델과 비슷하거나 더 좋은 성능이 나와야 한다고 기대하였다 하지만 여전히 깊은 모델은 얕은 모델보다 성능이 좋지 않았다. 일부 레이어가 identity function (f(x)=x) 를 잘 배울 수 있도록 하면 어떨까? 목표 : 모..

[DeepSleep] 딥러닝 스터디 4주차

📅 앞으로의 스터디 계획 ⌚ 스터디 시간: 매주 일요일 오후 1시반 📝 격주로 논문 리뷰 진행 (하람, 수연 / 혜주, 서희, 도연) ➕ 본인 발표 전 스터디에서 본인이 리뷰할 논문, 개요 알려주기 📅 7/4(일) 발표 예정 논문 📝 Deep Residual Learning for Image Recognition (2015, ResNet) 🙋 이하람 링크 : https://arxiv.org/pdf/1512.03385.pdf 개요/배경 Batchnorm 도입 이후에 10개 이상의 레이어를 학습시킬 수 있게 되었다. 층이 많은 모델일수록 층이 적은 모델과 비슷하거나 더 좋은 성능이 나와야 한다고 기대하였다. 하지만 여전히 깊은 모델은 얕은 모델보다 성능이 좋지 않았다. 일부 레이어가 identity func..

[DeepSleep] 딥러닝 스터디 3주차

✏️ Summary 3주차 스터디 : RNN 개념 + 모델 구현 (tensorflow / pytorch) 🔗 스터디 자료 부스트코스 파이토치로 시작하는 딥러닝 기초 부스트코스 텐서플로우로 시작하는 딥러닝 기초 📖 3주차 스터디 📌 RNN 이란? 순환 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해주므로, 순방향 신경망과 달리 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. - 위키백과 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입..