Group Study (2024-2025)/Machine Learning 입문 8

[ML 입문] 8주차 스터디

8. 텍스트를 위한 인공 신경망8.1. 순차 데이터와 순환 신경망8.1.1. 개요 - 용어 정리순차 데이터(Sequential data)순서에 의미가 있는 데이터예시텍스트 데이터 ⇒ 어순에 따라서 텍스트의 의미가 달라짐시계열 데이터(Time series data) ⇒ 온도 기록 데이터에서 시간 순서를 섞으면 다음 온도를 예상하기 어려움순환 신경망(Recurrent Neural Network, RNN)순환되는 고리가 있는 신경망앞의 샘플의 출력을 새로운 샘플을 계산할 때 재사용즉, 계산된 데이터는 이전 샘플에 대한 기억을 가지고 있다고 볼 수 있음입력에 가중치를 곱하고 활성화 함수를 통과시켜 다음 층으로 보내는 것은 다른 신경망과 동일하나, 층의 출력을 재사용하는 특징이 있는 신경망이러한 특징으로 순차 데..

[ML 입문] 7주차 스터디

8-1. 합성곱 신경망의 구성요소 밀집층뉴런마다 입력의 개수와 같은 가중치 존재. (모든 입력에 가중치를 곱하고 절편을 더한다.)이미지와 같은 2차원 데이터를 1차원으로 펼쳐서 처리하기 때문에 비효율적 합성곱 convolution가중치의 개수가 입력 개수와 다르다. (입력보다 작은 가중치) → 뉴런에 적은 가중치만 사용뉴런X → 커널=필터=가중치 2차원 합성곱이미지와 같은 2차원 데이터 특징 반영 가능1차원과 마찬가지로 입력 수보다 적은 커널 사용 특성 맵 feature map합성곱 계산을 통해 얻은 출력2차원의 특성맵을 쌓아서 3차원의 배열로 구성이 될 수 있다. 패딩 padding입력 주변에 한개의 픽셀을 덧붙이는 것(보통 0으로 패딩하기 때문에 제로패딩이라고도 부름)필터가 슬라이딩하는 면적을 넓힐 ..

[ML 입문] 6주차 스터디

7. 딥러닝7.1.1. 인공신경망 :생물학적 뉴런에서 영감을 받아 만든 머신러닝 알고리즘인공신경망 알고리즘을 딥러닝이라고도 부름. 7.1.2 패션 MNIST 데이터셋 : 0~9까지 10개의 클래스 , 28*28 흑백 픽셀 , 6만개 데이터 사용. 7.1.3 텐서플로 (TensorFlow) :구글이 만든 딥러닝 라이브러리. 의 ‘케라스 패키지’를 import.Dense : 신경망에서 가장 기본 층인 밀집층을 만드는 클래스. 첫 번째 매개변수에는 뉴런의 개수를 지정.activation 매개변수에는 사용할 활성화 함수를 지정하는데, 대표적으로 ‘sigmoid’, ‘softmax’ 함수가 있음.아무것도 지정하지 않으면 활성화 함수를 사용하지 않음.from tensorflow import keras(train_i..

[ML 입문] 5주차 스터디

6. 비지도 학습6.1. 군집 알고리즘(Clustering)6.1.1. 개요 - 비지도학습이란비지도 학습사용자가 기계에 특성 데이터만 알려주고, 정답을 가르쳐주지 않는 학습 알고리즘즉, 정답을 알려주지 않아도 기계가 데이터에 있는 구조나 패턴을 스스로 찾아내는 알고리즘대표적으로 군집(Clustering)과 차원 축소(Dimension Reduction) 방법이 있음군집(clustering) : 비슷한 샘플끼리 그룹(cluster)으로 모으는 작업차원 축소 (Dimension Reduction) : 특성 개수를 줄이는 작업6.1.2. 과일 분류하기 코드과일 사진 데이터 로드 및 확인import numpy as npimport matplotlib.pyplot as plt#가로x세로 100x100 크기의 30..

[ML 입문] 4주차 스터디

5-1. 로지스틱 회귀로 와인 분류하기0. 개요결정 트리: 예, 아니오에 대한 질문을 이어나가며 정답을 찾아 학습하는 알고리즘불순도: 결정 트리가 최적의 질문을 하기 위한 기준. 사이킷런에서 지니 불순도와 엔트로피 불순도 제공데이터 준비훈련세트와 테스트세트로 나눈 뒤 전처리두 세트 모두 적용되는 전처리 방식이 같다import pandas as pdwine = pd.read_csv('')data = wine[['alcohol', 'sugar', 'pH']].to_numpy()target = wine['class'].to_numpy()from sklearn.model_selection import train_test_splittrain_input, test_input, train_target, test_ta..

[ML 입문] 3주차 스터디

Chapter 04 다양한 분류 알고리즘04-1 로지스틱 회귀럭키백의 확률도미일 확률빙어일 확률K-최근접 이웃 알고리즘 사용데이터 준비하기import pandas as pdfish = pd.read_csv('')fish.head() // 처음 몇개의 행을 출력fish_input = fish[['Weight', 'Lengh', 'Diagonal', 'Height', 'Width']].to_numpy()fish_target = fish['Species'].to_numpy() species - 타깃, 그 외 - 특성k-최근접 이웃 분류기의 확률 예측from sklearn.neighbors import KNeighborsClassifierkn = KNeighborsClassifier(n_neighbors=3)k..

[ML 입문] 2주차 스터디

Chapter03 회귀 알고리즘과 모델 규제복습하기Q. 도미와 빙어 구분하기(도미 : 1, 빙어 : 0)A. K-최근접이웃 알고리즘을 사용Problem : 잘못된 결과Why : length보다 weight 특성이 결과에 더 큰 영향을 주게 됨X축(length) Scale : 10~40Y축(weight) Scale : 0~1000Solution : 특성의 스케일을 맞추는 과정 즉, 데이터 전처리 과정이 필요데이터 전처리 : 표준점수(Z점수, (특성 - 평균)/표준편차) 계산하기numpy의 mean(평균), std(표준편차) 함수 사용하여 Z점수 계산train data 전처리 방식으로 test data도 동일하게 전처리 진행mean = np.mean(train_input, axis=0)std = np.std..

[ML 입문] 1주차 스터디

훈련 세트와 테스트 세트 : 데이터 전처리부터 모델 평가까지머신러닝 모델을 효과적으로 훈련시키기 위해서는 데이터를 어떻게 준비하고 처리하는지가 중요합니다. 이번 포스트에서는 훈련 세트와 테스트 세트를 나누는 방법부터 데이터 전처리까지, 데이터를 사용해 하나의 모델을 완성해보겠습니다.1. 훈련 세트와 테스트 세트란?훈련 세트 (Training Set) : 모델을 학습시키기 위한 데이터입니다. 이 데이터를 사용하여 모델이 다양한 패턴을 학습하게 됩니다.테스트 세트 (Test Set) : 모델의 성능을 평가하기 위한 데이터입니다. 훈련에 사용되지 않은 데이터를 사용해 모델이 실제 환경에서 얼마나 잘 작동하는지 확인합니다.모델을 훈련하고 평가하기 위해서는 데이터를 적절히 나눠야 하며, 이때 샘플링 편향이 발생하..