Group Study (2021-2022)/ML Introduction 8

[머신러닝 입문 스터디] 11주차 - 텍스트를 위한 인공 신경망

순차 데이터와 순환 신경망 순환 데이터는 텍스트나 시계열 데이터와 같이 순서에 의미가 있는 데이터 대표적인 순차 데이터로는 글, 대화, 일자별 날씨, 일자별 판매 실적 등 순환 신경망은 순차 데이터에 잘 맞은 인공 신경망의 한 종류 순환 신경망에서 종종 순환층을 셀이라고 부르며 하나의 셀은 여러 개의 뉴런으로 구성됨 순환 신경망에서는 셀의 출력을 은닉 상태라고 부르며 은닉 상태는 다음 층으로 전달될 뿐만 아니라 셀이 다음 타입스텝의 데이터를 처리할 때 재사용 순환신경망으로 IMDB 리뷰 분류하기 말뭉치는 자연어 처리에서 사용하는 텍스트 데이터의 모음으로 훈련 데이터셋을 뜻함 토큰은 텍스트에서 공백으로 구분되는 문자열 원-핫 인코딩은 어떤 클래스에 해당하는 원소만 1이고 나머지는 모두 0인 벡터 정수로 변..

[머신러닝 입문 스터디] 10주차 - 이미지를 위한 인공 신경망

합성곱 신경망의 구성요소 합성곱: 밀집층과 비슷하게 입력과 가중치를 곱하고 절편을 더하는 선형 계산. 입력을 일부만 사용한다. 필터: 합성곱 층의 필터는 밀집층의 뉴런에 해당한다. 필터의 가중치와 절편을 커널이라고 부르며, 자주 사용되는 커널의 크기는 (3,3) 또는 (5,5)이며, 커널의 깊이는 입력의 깊이와 같다. 특성 맵: 합성곱 층이나 풀링 층의 출력 배열. 필터 하나가 하나의 특성 맵을 만든다. 패딩: 합성곱 층의 입력 주위에 0으로 채워진 픽셀. 밸리드 패딩: 픽셀을 사용하지 않음 세임 패딩: 합성곱 층의 출력 크기를 입력과 동일하게 만들기 위해 입력에 패딩을 추가 스트라이드: 합성곱 층에서 필터가 입력 위를 이동하는 크기. 일반적으로 1픽셀 사용 풀링: 가중치가 없고 특성 맵의 가로세로 크기..

[머신러닝 입문 스터디] 9주차 - 딥러닝을 시작합니다

인공 신경망 인공 신경망은 기존의 머신러닝 알고리즘으로 다루기 어려웠던 이미지, 음성, 텍스트 분야에서 뛰어난 성능을 발휘하면서 크게 주목받고 있으며, 인공 신경망 알고리즘을 딥러닝이라고도 부름 텐서플로는 구글이 만든 딥러닝 라이브러리이며 CPU와 GPU를 사용해 인공 신경망 모델을 효율적으로 훈련하여 모델 구축과 서비스에 필요한 다양한 도구를 제공 텐서플로 2.0부터는 신경망 모델을 빠르게 구성할 수 있는 케라스를 핵심 API로 채택 밀집층은 가장 간단한 인공 신경망의 층이며 밀집층에서는 뉴런들이 모두 연결되어 있기 때문에 완전 연결 층이라고도 부름 원-핫 인코딩은 다중 분류에서 출력층에서 만든 확률과 크로스 엔트로피 손실을 계산하기 위해 정숫값을 배열에서 해당 정수 위치의 원소만 1이고 나머지는 모두..

[머신러닝 입문 스터디] 8주차 - 비지도 학습

군집 알고리즘 비지도 학습: 머신러닝의 한 종류로 훈련 데이터에 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습한다. 대표적인 비지도 학습 작업으로는 군집, 차원 축소 등이 있다. 히스토그램: 구간별로 값이 발생한 빈도를 그래프로 표시한 것이다. 보통 x축이 값의 구간(계급)이고 y축은 발생 빈도(도수)이다. 군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업이다. 군집 알고리즘으로 모은 샘플 그룹을 클러스터라고 한다. k-평균 k-평균: 처음에 랜덤하게 클러스터 중심을 정하고, 점차 가장 가까운 샘플의 중심으로 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘 클러스터 중심: k-평균 알고리즘이 만든 클러스터에 ..

[머신러닝 입문 스터디] 5주차 - 트리 알고리즘

결정 트리 결정 트리는 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘 불순도는 결정 트리가 최적의 질문을 찾기 위한 기준 사이킷런은 지니 불순도와 엔트로피 불순도를 제공 정보 이득은 부모 노드와 자식 노드의 불순도 차이를 나타내며 결정 트리 알고리즘은 정보 이득이 최대화되도록 학습함 가지치기는 결정 트리의 성장을 제한하여 훈련 세트의 과대적합을 막는 방법으로 사이킷런의 결정 트리 알고리즘은 여러 가지 가지치기 매개변수를 제공 특정 중요도는 결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정보를 나타내는 값 교차 검증과 그리드 서치 검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 데이터 세트 교차 검증은 훈련..

[머신러닝 입문 스터디] 3주차 - 다양한 분류 알고리즘

로지스틱 회귀 로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하요 클래스 확률을 출력할 수 있다. 다중 분류: 타깃 클래스가 2개 이상인 분류 문제. 로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측한다. 시그모이드 함수: 선형 방정식의 출력을 0과 1사이의 값으로 압축하며 이진 분류를 위해 사용한다. 소프트맥스 함수: 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만든다. 확률적 경사 하강법 확률적 경사 하강법: 훈련 세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘. +) 미니배치 경사 하강법: 샘플을 여러 개씩 사용 +) 배치 경사 하강법: 한 번에 ..

[머신러닝 입문 스터디] 2주차 - 회귀 알고리즘과 모델 규제

k-최근접 이웃 회귀 회귀는 임의의 수치를 예측하는 문제이며 타깃값도 임의의 수치가 됨 k-최근접 이웃 회귀는 k-최근접 이웃 알고리즘을 사용해 회귀 문제를 풀며 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측을 함 KNeighborsRegressor는 k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스이며 n_neighbors 매개변수로 이웃의 개수를 지정하고 기본값은 5 사이킷런에 사용할 훈련 세트는 특성과 샘플로 이루어진 2차원 배열이므로 넘파이의 reshape() 메소드로 배열의 크기를 바꿈 결정계수(R²)은 대표적인 회귀 문제의 성능 측정 도구로 1에 가까울수록 좋고, 0에 가깝다면 성능이 나쁜 모델 과대적합은 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을 때 일어나..

[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기

인공지능과 머신러닝, 딥러닝 인공지능: 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술로, 강인공지능과 약인공지능으로 나눌 수 있다. 머신러닝: 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야로, 대표적인 라이브러리로 사이킷런이 있다. 딥러닝: 인공 신경망이라고도 하며, 대표적인 라이브러리로 텐서플로와 파이토치가 있다. 마켓과 머신러닝 특성: 데이터를 표현하는 하나의 성질. ex) 생선의 길이, 생선의 무게 훈련: 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정. 사이킷런에서는 fit() 메서드 사용 k-최근접 이웃 알고리즘: 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘. 모델: ..