Group Study (2021-2022)/ML Introduction

[머신러닝 입문 스터디] 1주차 - 나의 첫 머신러닝, 데이터 다루기

김깅긍 2022. 5. 22. 10:12

인공지능과 머신러닝, 딥러닝

  • 인공지능: 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술로, 강인공지능과 약인공지능으로 나눌 수 있다.
  • 머신러닝: 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야로, 대표적인 라이브러리로 사이킷런이 있다.
  • 딥러닝: 인공 신경망이라고도 하며, 대표적인 라이브러리로 텐서플로와 파이토치가 있다.

마켓과 머신러닝

  • 특성: 데이터를 표현하는 하나의 성질. ex) 생선의 길이, 생선의 무게
  • 훈련: 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정. 사이킷런에서는 fit() 메서드 사용
  • k-최근접 이웃 알고리즘: 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘.
  • 모델: 머신러닝 프로그램에서 알고리즘이 구현된 객체. 종종 알고리즘 자체를 모델이라 부르기도 한다.
  • 정확도: 정확한 답을 몇 개 맞혔는지를 백분율로 나타낸 값. 사이킷런에서는 0~1 사이의 값으로 출력된다.

훈련 세트와 테스트 세트

  • 지도학습: 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용한다. ex) k-최근접 이웃
  • 비지도학습: 타깃데이터가 없기 때문에 무엇을 예측하는 것이 아닌 입력 데이터에서 어떤 특징을 찾는 데 주로 활용된다.
  • 훈련세트: 모델을 훈련할 때 사용하는 데이터로, 보통 훈련 세트가 클수록 좋기 때문에 테스트 세트를 제외한 모든 데이터를 사용한다.
  • 테스트세트: 전체 데이터에서 20~30%를 테스트세트로 사용하는 경우가 많다. 전체 데이터가 크다면 1%만 덜어내도 충분할 수 있다.
  • 샘플링 편향: 훈련 세트와 테스트 세트에 샘플리 골고루 섞여있지 않고, 샘플링이 한쪽으로 치우친 현상

데이터 전처리

  • 데이터 전처리: 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계. 이 단계에 많은 시간이 소모되기도 한다.
  • 표준점수: 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나이다. 표준점수를 얻으려면 특성의 평균을 빼고 표준편차로 나눈다.
    반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 한다.
  • 브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능이다.