로지스틱 회귀
- 로지스틱 회귀: 선형 방정식을 사용한 분류 알고리즘. 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하요 클래스 확률을 출력할 수 있다.
- 다중 분류: 타깃 클래스가 2개 이상인 분류 문제. 로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측한다.
- 시그모이드 함수: 선형 방정식의 출력을 0과 1사이의 값으로 압축하며 이진 분류를 위해 사용한다.
- 소프트맥스 함수: 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만든다.
확률적 경사 하강법
- 확률적 경사 하강법: 훈련 세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘.
+) 미니배치 경사 하강법: 샘플을 여러 개씩 사용
+) 배치 경사 하강법: 한 번에 전체 샘플 사용 - 손실 함수: 어떤 문제에서 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준으로, 확률적 경사 하강법이 최적화할 대상이다. 따라서 손실 함수의 값이 작을수록 좋다.
대부분의 문제에는 잘 맞는 손실 함수가 이미 정의되어 있다.
- 이진 분류에서는 로지스틱회귀(=이진 크로스엔트로피) 손실함수를 사용
- 다중 분류에는 크로스엔트로피 손실 함수를 사용
- 회귀 문제에는 평균 제곱 오차 손실 함수를 사용 - 에포크: 확률적 경사 하강법에서 전체 샘플을 모두 사용하는 한 번 반복을 의미한다. 일반적으로 경사 하강법 알고리즘은 수십에서 수백 번의 에포크를 반복한다.
확률적 경사 하강법을 사용한 모델은 에포크 횟수에 따라 과소적합이나 과대적합이 될 수 있다.
- 에포크 횟수가 적으면 모델이 훈련 세트를 덜 학습하게 되어, 훈련 세트와 테스트 세트에 잘 맞지 않는 과소적합될 가능성이 높다.
- 에포크 횟수가 충분히 많으면 훈련 세트를 완전히 학습하여, 훈련 세트에 아주 잘 맞는 모델이 만들어진다.
- 에포크 횟수가 너무 많으면 모델이 훈련 세트에 너무 잘 맞아 테스트 세트에서는 오히려 점수가 나빠져 과대적합될 가능성이 높다.
'Group Study (2021-2022) > ML Introduction' 카테고리의 다른 글
[머신러닝 입문 스터디] 9주차 - 딥러닝을 시작합니다 (0) | 2022.07.10 |
---|---|
[머신러닝 입문 스터디] 8주차 - 비지도 학습 (0) | 2022.07.03 |
[머신러닝 입문 스터디] 5주차 - 트리 알고리즘 (0) | 2022.06.12 |
[머신러닝 입문 스터디] 2주차 - 회귀 알고리즘과 모델 규제 (0) | 2022.05.22 |
[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기 (0) | 2022.05.22 |