순차 데이터와 순환 신경망
- 순환 데이터는 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터
대표적인 순차 데이터로는 글, 대화, 일자별 날씨, 일자별 판매 실적 등 - 순환 신경망은 순차 데이터에 잘 맞은 인공 신경망의 한 종류
- 순환 신경망에서 종종 순환층을 셀이라고 부르며 하나의 셀은 여러 개의 뉴런으로 구성됨
- 순환 신경망에서는 셀의 출력을 은닉 상태라고 부르며
은닉 상태는 다음 층으로 전달될 뿐만 아니라 셀이 다음 타입스텝의 데이터를 처리할 때 재사용
순환신경망으로 IMDB 리뷰 분류하기
- 말뭉치는 자연어 처리에서 사용하는 텍스트 데이터의 모음으로 훈련 데이터셋을 뜻함
- 토큰은 텍스트에서 공백으로 구분되는 문자열
- 원-핫 인코딩은 어떤 클래스에 해당하는 원소만 1이고 나머지는 모두 0인 벡터
정수로 변환된 토큰을 원-핫 인코딩으로 변환하려면 어휘 사전 크기의 벡터가 만들어짐 - 단어 임베딩은 정수로 변환된 토큰을 비교적 작은 크기의 실수 밀집 벡터로 변환함
밀집 벡터는 단어 사이의 관계를 표현할 수 있어 자연어 처리에서 좋은 성능을 발휘
LSTM과 GRU 셀
- LSTM 셀은 타임스텝이 긴 데이터를 효과적으로 학습하기 위해 고안된 순환층
입력 게이트, 삭제 게이트, 출력 게이트 역할을 하는 작은 셀이 포함됨 - LSTM 셀은 은닉 상태 외에 셀 상태를 출력하며
셀 상태는 다음 층에 전달되지 않으며 현재 셀에서만 순환함 - GRU 셀은 LSTM 셀의 간소화 버전이며 LSTM 셀에 못지않는 성능을 냄
'Group Study (2021-2022) > ML Introduction' 카테고리의 다른 글
[머신러닝 입문 스터디] 10주차 - 이미지를 위한 인공 신경망 (0) | 2022.07.18 |
---|---|
[머신러닝 입문 스터디] 9주차 - 딥러닝을 시작합니다 (0) | 2022.07.10 |
[머신러닝 입문 스터디] 8주차 - 비지도 학습 (0) | 2022.07.03 |
[머신러닝 입문 스터디] 5주차 - 트리 알고리즘 (0) | 2022.06.12 |
[머신러닝 입문 스터디] 3주차 - 다양한 분류 알고리즘 (0) | 2022.05.29 |