[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기

Group Study (2021-2022)/ML Introduction

[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기

김깅긍 2022. 5. 22. 10:12

인공지능과 머신러닝, 딥러닝

인공지능: 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술로, 강인공지능과 약인공지능으로 나눌 수 있다.
머신러닝: 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야로, 대표적인 라이브러리로 사이킷런이 있다.
딥러닝: 인공 신경망이라고도 하며, 대표적인 라이브러리로 텐서플로와 파이토치가 있다.

마켓과 머신러닝

특성: 데이터를 표현하는 하나의 성질. ex) 생선의 길이, 생선의 무게
훈련: 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정. 사이킷런에서는 fit() 메서드 사용
k-최근접 이웃 알고리즘: 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘.
모델: 머신러닝 프로그램에서 알고리즘이 구현된 객체. 종종 알고리즘 자체를 모델이라 부르기도 한다.
정확도: 정확한 답을 몇 개 맞혔는지를 백분율로 나타낸 값. 사이킷런에서는 0~1 사이의 값으로 출력된다.

훈련 세트와 테스트 세트

지도학습: 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용한다. ex) k-최근접 이웃
비지도학습: 타깃데이터가 없기 때문에 무엇을 예측하는 것이 아닌 입력 데이터에서 어떤 특징을 찾는 데 주로 활용된다.
훈련세트: 모델을 훈련할 때 사용하는 데이터로, 보통 훈련 세트가 클수록 좋기 때문에 테스트 세트를 제외한 모든 데이터를 사용한다.
테스트세트: 전체 데이터에서 20~30%를 테스트세트로 사용하는 경우가 많다. 전체 데이터가 크다면 1%만 덜어내도 충분할 수 있다.
샘플링 편향: 훈련 세트와 테스트 세트에 샘플리 골고루 섞여있지 않고, 샘플링이 한쪽으로 치우친 현상

데이터 전처리

데이터 전처리: 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계. 이 단계에 많은 시간이 소모되기도 한다.
표준점수: 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나이다. 표준점수를 얻으려면 특성의 평균을 빼고 표준편차로 나눈다.
반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 한다.
브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능이다.

저작자표시 비영리 변경금지

'Group Study (2021-2022) > ML Introduction' 카테고리의 다른 글

[머신러닝 입문 스터디] 9주차 - 딥러닝을 시작합니다 (0)	2022.07.10
[머신러닝 입문 스터디] 8주차 - 비지도 학습 (0)	2022.07.03
[머신러닝 입문 스터디] 5주차 - 트리 알고리즘 (0)	2022.06.12
[머신러닝 입문 스터디] 3주차 - 다양한 분류 알고리즘 (0)	2022.05.29
[머신러닝 입문 스터디] 2주차 - 회귀 알고리즘과 모델 규제 (0)	2022.05.22

현재글[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기

댓글

티스토리툴바