Group Study (2020-2021) 60

[DeepSleep] 논문 리뷰 스터디 8주차

🚀 8주차 발표 내용 📝 GPT-1 Improving Language Understanding by Generative Pre-Training 🙋‍♀️ 희 논문 링크 : https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 주제 : GPT-1, Generative 사전 학습을 통한 언어 이해 개선 목표 : 약간의 fine-tuning만으로 다양한 task에 잘 전이하는, 범용적인(universal) representations 학습하기 구조 : 기존 Transformer의 decoder를 12개 쌓은 구조 (decoder에서 Multi-Head Attention 제외) Unsupervised..

[DeepSleep] 논문 리뷰 스터디 7주차

📅 7주차 발표 내용 📝 Attention Is All You Need 🙋 수연 논문 링크: https://arxiv.org/pdf/1706.03762.pdf 주제: RNN이나 CNN 없이, Attention만을 사용한 새로운 모델(Transformer) 제시 배경: 기존의 seq2seq 모델은 RNN을 이용하였는데, 순환 모델의 순차적인 특징으로 인해 학습 데이터의 병렬 처리가 불가능했으며 긴 시퀀스를 처리하는데 치명적. 그래서 Attention으로 이를 보정하였으나 여전히 RNN을 사용해야했기에 단점 존재. Attention만 이용하면 어떨까? 내용: recurrence를 사용하지 않고, Attention에 전적으로 의존하여 input과 output 간의 전역 의존성을 나타내는 기법 multi-hea..

[DeepSleep] 논문 리뷰 스터디 6주차

📖 6주차 발표 내용 ❄️ 혜주 선정한 논문: Neural Machine Translation by Jointly Learning to Align and Translate [pdf] 발표 자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week6/align.md 주제: Alignment model 의 등장과 입력 문장 벡터의 연관 순위 책정에 따른 번역 효율 향상 배경: 기존처럼 입력 문장을 고정된 길이의 context vector 로 변환할 시, 길이가 긴 입력 문장에 대해서는 번역 성능이 급격히 저하되는 문제점이 발생 내용 decoder 에서 output 을 출력할 때, 입력 문장을 순차적으로 탐색해서 현재 생성하려..

[DeepSleep] 논문 리뷰 스터디 5주차 / 이후 계획

📅 5주차 발표 내용 📝 Sequence to sequence learning with neural networks 🙋 혜주 링크: https://arxiv.org/pdf/1409.3215.pdf 주제: 두 개의 LSTM 모델을 활용한 기존 기계 번역의 한계 개선 배경: 기존의 SMT와 RNN 방식으로는 긴 문장 처리와 어순 구조 변화에 대응하기 어렵다는 단점이 존재 내용 Encoder와 Decoder, 즉 2개의 LSTM을 사용하고 이를 다시 4개의 layer로 쌓아 모델 생성 => 파라미터의 수가 늘어나 깊은 학습 가능 입력 문장의 순서를 뒤집었을 때 결과가 더 좋음 발표자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/mai..

[DeepSleep] 논문 리뷰 스터디 4주차

📁 4주차 발표 내용 📄 희 주제: NLP-RNN 전반적인 개념 정리 내용 NLP Pipeline 언어 모델(Language Model) 통계적 언어 모델 인공 신경망 모델 RNN LSTM GRU Seq2Seq Attention Mechanism Transformer 단어의 표현 방법(Word Representation) 임베딩 기법 발표자료: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week4/NLP-RNN.md 📄 도연 제목: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation 링크: https://a..

[CS Study] 11주차 스터디(07/19~07/25)

A팀 12주차 - [네트워크 질문 정리] https://insidious-sundial-5b8.notion.site/0f81412ada5a4830911485309b4904c5 [운영체제] https://dolphinsarah.tistory.com/54 시스템 콜(System Call)이란? 운영체제는 컴퓨터를 제대로 실행 및 사용하게 해주는 프로그램입니다. 마우스를 움직이는 것부터 프로그램 실행과 종료까지 운영체제가 하는 역할은 매우 많고 없으면 컴퓨터를 사용할 수 없 dolphinsarah.tistory.com https://dolphinsarah.tistory.com/55 동시성(Concurrency) vs 병렬성(Parallelism) 동시성과 병렬성은 혼동하기 쉬운 개념입니다. 그래서 둘을 비교해..

[DeepSleep] 논문 리뷰 스터디 3주차

📚 3주차 발표 내용 💡 하람 주제 : Layer Normalization 링크 : https://arxiv.org/pdf/1607.06450.pdf 배경 Batch Normalization을 이용하면 feed-forward neural network 에서 학습시간을 줄일 수 있다. 하지만, Batch Normalization의 효과는 batch size 에 따라 달라지고, Batch Normalization을 RNN에 적용하는 방법이 명확하지 않다. 내용 BN은 "각 feature의 평균과 분산"을 구해서 batch에 있는 "각 feature를 정규화" 한다. 반면 LN은 "각 input의 feature들에 대한 평균과 분산"을 구해서 batch에 있는 "각 input을 정규화" 한다. 효과 Batch..

[CS Study] 10주차 스터디(07/12~07/18)

A팀 [컴퓨터비전] Transfer Learning in Medical Image Classification https://janetdev.notion.site/Transfer-Learning-in-Medical-Image-Classification-780746e1a10146ccb57216cae2c4a3ed Transfer Learning in Medical Image Classification About janetdev.notion.site B팀 [자료구조론] 2-3-4트리, RB트리, B트리 https://blog.naver.com/tldusqkr/222431038577 2-3-4트리, RB트리, B트리 Today is shun_day_ blog.naver.com [네트워크] OSI 7계층 https..

[DeepSleep] 논문 리뷰 스터디 2주차

🌟 2주차 발표 🍒 희: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week2/BatchNormalization.md 주제: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015) 링크: https://arxiv.org/pdf/1502.03167.pdf 배경 Internal covariate shift : 학습 중에 이전 layer의 parameter들이 변하므로, 각 input layer의 분포가 변하는 현상 층이 깊어질 수록 변화가 커져 학습이 어려워짐 Internal covariate shift..

[DeepSleep] 논문 리뷰 스터디 1주차

🍒 하람: https://github.com/dsc-sookmyung/2021-DeepSleep-Paper-Review/blob/main/Week1/resnet.md 주제: Deep Residual Learning for Image Recognition (2015, ResNet) 링크 : https://arxiv.org/pdf/1512.03385.pdf 개요/배경 Batchnorm 도입 이후에 10개 이상의 레이어를 학습시킬 수 있게 되었다. 층이 많은 모델일수록 층이 적은 모델과 비슷하거나 더 좋은 성능이 나와야 한다고 기대하였다 하지만 여전히 깊은 모델은 얕은 모델보다 성능이 좋지 않았다. 일부 레이어가 identity function (f(x)=x) 를 잘 배울 수 있도록 하면 어떨까? 목표 : 모..