Group Study (2021-2022)/ML Introduction

[머신러닝 입문 스터디] 3주차 - 다양한 분류 알고리즘

최가희 2022. 5. 29. 21:46

로지스틱 회귀

  • 로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하요 클래스 확률을 출력할 수 있다.
  • 다중 분류: 타깃 클래스가 2개 이상인 분류 문제. 로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측한다.
  • 시그모이드 함수: 선형 방정식의 출력을 0과 1사이의 값으로 압축하며 이진 분류를 위해 사용한다.
  • 소프트맥스 함수: 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만든다.

확률적 경사 하강법

  • 확률적 경사 하강법: 훈련 세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘.
    +) 미니배치 경사 하강법: 샘플을 여러 개씩 사용
    +) 배치 경사 하강법: 한 번에 전체 샘플 사용

  • 손실 함수: 어떤 문제에서 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준으로, 확률적 경사 하강법이 최적화할 대상이다. 따라서 손실 함수의 값이 작을수록 좋다.

    대부분의 문제에는 잘 맞는 손실 함수가 이미 정의되어 있다.
    - 이진 분류에서는 로지스틱회귀(=이진 크로스엔트로피) 손실함수를 사용
    - 다중 분류에는 크로스엔트로피 손실 함수를 사용
    - 회귀 문제에는 평균 제곱 오차 손실 함수를 사용

  • 에포크: 확률적 경사 하강법에서 전체 샘플을 모두 사용하는 한 번 반복을 의미한다. 일반적으로 경사 하강법 알고리즘은 수십에서 수백 번의 에포크를 반복한다.

    확률적 경사 하강법을 사용한 모델은 에포크 횟수에 따라 과소적합이나 과대적합이 될 수 있다.
    - 에포크 횟수가 적으면 모델이 훈련 세트를 덜 학습하게 되어, 훈련 세트와 테스트 세트에 잘 맞지 않는 과소적합될 가능성이 높다.
    - 에포크 횟수가 충분히 많으면 훈련 세트를 완전히 학습하여, 훈련 세트에 아주 잘 맞는 모델이 만들어진다.
    - 에포크 횟수가 너무 많으면 모델이 훈련 세트에 너무 잘 맞아 테스트 세트에서는 오히려 점수가 나빠져 과대적합될 가능성이 높다.