[머신러닝 입문 스터디] 5주차 - 트리 알고리즘

Group Study (2021-2022)/ML Introduction

[머신러닝 입문 스터디] 5주차 - 트리 알고리즘

김깅긍 2022. 6. 12. 10:27

결정 트리

결정 트리는 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘
불순도는 결정 트리가 최적의 질문을 찾기 위한 기준
사이킷런은 지니 불순도와 엔트로피 불순도를 제공
정보 이득은 부모 노드와 자식 노드의 불순도 차이를 나타내며
결정 트리 알고리즘은 정보 이득이 최대화되도록 학습함
가지치기는 결정 트리의 성장을 제한하여 훈련 세트의 과대적합을 막는 방법으로
사이킷런의 결정 트리 알고리즘은 여러 가지 가지치기 매개변수를 제공
특정 중요도는 결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정보를 나타내는 값

교차 검증과 그리드 서치

검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때,
테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 데이터 세트
교차 검증은 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고
나머지 폴드에서는 모델을 훈련하여 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법
그리드 서치는 하이퍼파라미터 탐색을 자동화해주는 도구이며
탐색할 매개변수를 나열하면 교차 검증을 수행하여 가장 좋은 검증 점수의 매개변수 조합을 선택
마지막으로 이 매개변수 조합으로 최종 모델을 훈련
랜덤 서치는 연속된 매개변수 값을 탐색할 때 유용하며
탐색할 값을 직접 나열하는 것이 아니고 탐색 값을 샘플링할 수 있는 확률 분포 객체를 전달함

트리의 앙상블

앙상블 학습은 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘
랜덤 포레스트는 대표적인 결정 트리 기반의 앙상블 학습 방법으로
부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징
엑스트라 트리는 랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만
부트스트랩 샘플을 사용하지 않으며 랜덤하게 노드를 분할해 과대적합을 감소시킴
그레이디언트 부스팅은 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 방법이므로
훈련 속도가 조금 느리지만 더 좋은 성능을 기대할 수 있음
히스토그램 기반 그레이디언트 부스팅은 그레이디언트 부스팅의 속도를 개선한 것으로
안정적인 결과와 높은 성능으로 매우 인기가 높음

저작자표시 비영리 변경금지

'Group Study (2021-2022) > ML Introduction' 카테고리의 다른 글

[머신러닝 입문 스터디] 9주차 - 딥러닝을 시작합니다 (0)	2022.07.10
[머신러닝 입문 스터디] 8주차 - 비지도 학습 (0)	2022.07.03
[머신러닝 입문 스터디] 3주차 - 다양한 분류 알고리즘 (0)	2022.05.29
[머신러닝 입문 스터디] 2주차 - 회귀 알고리즘과 모델 규제 (0)	2022.05.22
[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기 (0)	2022.05.22

현재글[머신러닝 입문 스터디] 5주차 - 트리 알고리즘

댓글

티스토리툴바