GDSC Sookmyung 활동/Speaker Session & Hands on Workshop

[Kaggle/ML] 캐글(Kaggle) 시작하기

hrxorxm 2020. 11. 18. 01:34

이 글은 2020.11.23 에 진행된 코어멤버 하람님의 ‘머신러닝과 데이터 사이언스 커뮤니티, 캐글 시작하기’ 세션을 바탕으로 작성된 블로그 포스팅입니다. 

새 창에서 열기  (발표자 노트를 참고하실 수 있습니다)

 

1. 캐글(Kaggle) 이란? 🤔

📌 머신러닝과 데이터 과학 커뮤니티

  • 경진대회를 주최하는 플랫폼
  • 2017년 3월에 구글의 모회사인 알파벳(Alphabet)에 인수됨

📌 캐글에서 캐글러가 캐글링하기

  • 캐글러(Kaggler) : 캐글에 모이는 사용자 또는 대회 참가자
  • 캐글링(Kaggling) : 캐글에서 활동하거나 경진대회에 참가해 경쟁하는 것
  • 공용어 : 영어, 영문 데이터, Python과 R

📌 캐글링에 필요한 지식

  • 프로그래밍이나 머신러닝 지식이 없어도 누구나 참가 가능
  • 머신러닝 입문용 온라인 강의, 토론 등에 참가
  • 단, 경진대회에 참가하려면 데이터 분석이나 머신러닝 지식 필요

 

2. 캐글(Kaggle) 에서 무엇을 할 수 있을까? 🧐

📌 How To Use Kaggle

 

Getting started on Kaggle | Data Science Resources

Documentation for using Kaggle

www.kaggle.com

🏆 Competitions

  • 상금이 걸린 대회들이 현재도 많이 진행되고 있다.
  • Getting Started
    • 초보자가 캐글 사용법과 머신러닝 프로그래밍의 기본을 배우기 위한 경진대회
    • 머신러닝을 배울 때 자주 등장하는 데이터 사용
  • [Join Competition]을 누르면 대회에 참가 → 대회 데이터 열람이 가능해진다.
  • [Submit Predictions]을 통해 결과 제출 → 리더보드에 올라간다.
  • 제출한 파일의 Score에 따라 리더보드 등수가 정해진다.
    • Public Leaderboard : 공개된 테스트셋에 의한 Score로 매겨지는 등수
    • Private Leaderboard : 숨겨진 테스트셋에 의한 Score로 매겨지는 등수

📔 Notebooks

  • 캐글에서 제공하는 데이터 분석용 프로그래밍 환경
  • 별도의 개발환경 구축 없이 머신러닝 프로그램의 작성 및 실행이 가능
  • 다른 캐글러의 코드를 보며 공부할 수 있다.
  • 대회 Notebooks 탭에서 노트북을 만들면, 대회에 사용된 데이터셋에 바로 접근할 수 있다.

💾 Datasets

  • 보통 학술 목적이라면 누구나 사용할 수 있는 공개 데이터 세트

🤓 Discuss

  • 주제별로 6가지의 Forum 존재
  • 시작하는 단계에서는 Getting Started 나 Learn 을 활용하면 좋을 듯하다.

📚 Courses

  • 캐글에서 제공하는 데이터 과학 관련 강의
  • 각 courses 를 이수하면 certificates 수여

 

3. 캐글(Kaggle) Contributor 되기 (실습) 😎

  • 캐글러 등급
    • 경험에 따른 데이터 과학자의 수준 차이를 인정한다.
    • Novices < Contributor < Experts < Masters < Grandmasters
    • 각각의 Competitions, Datasets, Notebooks, Discussion 에서의 등급이 다르게 매겨진다.
  • 컨트리뷰터(Contributor) : 캐글 튜토리얼을 완료했다는 증거
  • 실습 목표 : 일단, 초보자(Novice) 에서 컨트리뷰터(Contributor) 가 되어보자

(1) 회원가입(Register)

  • 회원가입을 하면 Novice 가 된다. 

(2) 사용자 프로필 정보 추가하기

  • 자기소개(bio) 작성하기
  • 위치(location), 직업(occupation), 조직(organization) 입력하기
  • SMS 검증하기

(3) 경진대회 참여해보기

  • 🔢Digit Recognizer🔢 : MNIST 손글씨 숫자 이미지를 분류하는 고전적인 문제
  • 노트북 복사하기 : [Notebooks] - [Introduction to CNN Keras - 0997 (top 6%)] - [Copy and Edit] 클릭
  • 노트북 실행 및 저장하기 : [Save Version] - [Save & Run All (Commit)] - [Save]
  • 노트북 실행결과 제출하기 : [Save Version | 1️⃣] - [Version 1] - [Submit to Competition] - [Submit] - [View My Submissions]

(4) 튜토리얼 완료하기

  • (선택) 방금 실습해본 노트북에 UpVote 및 Comment 를 달면 💖Contributor 달성!💖
  • 이외에도 Notebooks, Discuss, Data 등에서 좋은 게시물이나 댓글을 본다면 UpVote 및 Comment를 남겨서 튜토리얼을 완료하실 수 있습니다.