Group Study (2021-2022)/ML Introduction

[머신러닝 입문 스터디] 11주차 - 텍스트를 위한 인공 신경망

김깅긍 2022. 7. 24. 10:52

순차 데이터와 순환 신경망

  • 순환 데이터는 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터
    대표적인 순차 데이터로는 글, 대화, 일자별 날씨, 일자별 판매 실적 등
  • 순환 신경망은 순차 데이터에 잘 맞은 인공 신경망의 한 종류
  • 순환 신경망에서 종종 순환층을 이라고 부르며 하나의 셀은 여러 개의 뉴런으로 구성됨
  • 순환 신경망에서는 셀의 출력을 은닉 상태라고 부르며
    은닉 상태는 다음 층으로 전달될 뿐만 아니라 셀이 다음 타입스텝의 데이터를 처리할 때 재사용

 

순환신경망으로 IMDB 리뷰 분류하기

  • 말뭉치는 자연어 처리에서 사용하는 텍스트 데이터의 모음으로 훈련 데이터셋을 뜻함
  • 토큰은 텍스트에서 공백으로 구분되는 문자열
  • 원-핫 인코딩은 어떤 클래스에 해당하는 원소만 1이고 나머지는 모두 0인 벡터
    정수로 변환된 토큰을 원-핫 인코딩으로 변환하려면 어휘 사전 크기의 벡터가 만들어짐
  • 단어 임베딩은 정수로 변환된 토큰을 비교적 작은 크기의 실수 밀집 벡터로 변환함
    밀집 벡터는 단어 사이의 관계를 표현할 수 있어 자연어 처리에서 좋은 성능을 발휘

 

LSTM과 GRU 셀

  • LSTM 셀은 타임스텝이 긴 데이터를 효과적으로 학습하기 위해 고안된 순환층
    입력 게이트, 삭제 게이트, 출력 게이트 역할을 하는 작은 셀이 포함됨
  • LSTM 셀은 은닉 상태 외에 셀 상태를 출력하며
    셀 상태는 다음 층에 전달되지 않으며 현재 셀에서만 순환함
  • GRU 셀은 LSTM 셀의 간소화 버전이며 LSTM 셀에 못지않는 성능을 냄