Group Study (2020-2021)/Machine Learning 8

[Machine Learning] 8주차 스터디 - 이미지 내 문자 인식(OCR) + 마스크 착용 여부 분류 프로그램

1. 이미지 내 문자 인식(OCR) 맛보기 1) tesserocr 라이브러리 설치 Anaconda 터미널에서 가상환경(ex. MLStudy)을 activate 하고 tesserocr를 설치합니다. (base) >conda activate MLStudy (MLStudy) >conda install -c conda-forge tesserocr tesserocr 라이브러리 관련 추가 설명이나 다른 설치 방법은 링크를 참고하세요 : tesserocr · PyPI 가상환경에서 Jupyter Notebook를 실행해 tessorocr의 버전과 언어를 확인합니다. import tesserocr from PIL import Image print(tesserocr.tesseract_version()) # print te..

[Machine Learning] 7주차 스터디 - 이미지 분석 활용 맛보기

Q. cvlib 이용 시 매개변수로 넣는 이미지의 기본 컬러공간(color space)은 무엇이어야 할까요? A. openCV는 b, g, r color space를 사용하므로 (b,g,r)이다. 라이브러리 사용 실습 0. 라이브러리 설치 # CVlib !pip install cvlib # tensorflow !pip install tensorflow import cv2 import matplotlib.pyplot as plt import cvlib as cv from cvlib.object_detection import draw_bbox import numpy as np 1. 객체 인식 (Object Detection) #15inch x 15inch figure 생성 fig = plt.figure(fi..

[Machine Learning] 6주차 스터디 - 이미지 처리 기본

1. 이미지 분석 기본 용어 정리 (1) 화소(Pixel) Pixel 픽셀이란, 영상처리의 최소 기본 단위를 말한다. 0~255 사이의 값으로 표현하는데 0은 검정색, 255는 흰색을 의미한다. Resolution 몇 개의 픽셀로 이루어졌는지를 폭넓게 나타내는 말이다. 가로 픽셀 수 * 세로 픽셀 수 로 나타낸다. (2) 파일 포맷(File format) Raster(Bitmap) 픽셀이 모여 하나의 이미지를 구성하는 방식 중의 하나이다. ex) GIF,BMP,JPEG,PNG... 등 Vector Graphics 점, 선, 도형 등의 객체를 이용해 이미지를 구성하는 방식이다. ex) PS,EPS,SVG... 등 (3) 컬러 공간(Color Space) 흑백 이미지(1-channel): 컬러 모델이 gra..

[Machine Learning] 5주차 스터디 - 추천 시스템

5주차 목표 : 자연어 처리(문서 유사도)를 이용한 추천 시스템 실습 참고 강의 : [구름 Edu] 딥러닝 이론 및 파이썬 실습 참고 자료 : inuplace.tistory.com/594 1. 자연어처리 - 문서 유사도 1. Bag of Words : 문자를 숫자로 표현하는 방법 중 하나. 단어들의 순서를 전혀 고려하지 않고 출현 빈도에 집중하여 텍스트 데이터를 수치화해서 표현한다. → 머신러닝 모델의 입력값으로 사용할 수 있다. (머신러닝 모델은 수학적 모델이므로, 입력값으로 수치화된 값이 들어가야 한다) 1) 문장 간의 유사도 구하는 방법 1. 문장의 단어마다 고유한 인덱스를 부여한 후, 각 단어의 출현 빈도를 기록한다. 2. 유사도를 구하고자 하는 문장들의 각 인덱스에 있는 값끼리 전부 곱하고 그 ..

[Machine Learning] 4주차 스터디 - 나이브 베이즈 분류기

4주차 목표 : 나이브 베이즈 분류기를 통한 캐글 데이터 긍정과 부정 분류하기 참고 캐글 사이트 : www.kaggle.com/c/nlp-getting-started/data ▶실습 실습 내용 : train.csv의 데이터를 가지고 와서 ['text', 'target'] 컬럼만 가져오기 1 ). 데이터 불러오기 및 필요한 데이터만 선별하여 train data에 저장 import pandas as pd import re from collections import Counter from math import log, exp df = pd.read_csv('./train.csv') # "text", "target" column만 갖고오기 df = df[['text','target']] df.head() # t..

[Machine Learning] 3주차 스터디 - 텍스트 분석 기초

3주차 목표: 텍스트 분석 프로세스 이해하기 참고 자료: wikidocs.net/21694 1. 텍스트 분석 기본 용어 1. 토큰화 (Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다. 토큰화의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. (e.g. 단어, 문장) Corpus: 말뭉치 또는 코퍼스는 자연언어 연구를 위해 특정한 목적을..

[Machine Learning] 2주차 스터디 - 머신러닝 기본기 다지기

2주차 목표 : 머신러닝 기본기 다지기 참고 강의 : [구름EDU] 머신러닝 이론 및 파이썬 실습 ✔ 머신러닝 기본 용어 정리 < overfitting & underfitting > 오버피팅(overfitting)이란? => 모델이 실제 분포보다 학습 샘플들 분포에 더 근접하게 학습되는 현상 언더피팅(underfitting)이란? => 모델이 너무 간단하기 때문에 학습 오류가 줄어들지 않는 것 underfitting 막는 방법 2가지 1)teach your machine with more features 2) high variance machine learning models like Decision Tree, K-NN, SVM => Low Bias High Variance overfitting 판단 방..

[Machine Learning] 1주차 스터디 - 머신러닝을 위한 파이썬

1주차 목표 : 머신러닝을 위한 파이썬 정복하기 참고 강의 : [부스트코스] 머신러닝을 위한 파이썬 1. 1주차 핵심 내용 정리 - Ndarray : np.array 함수를 활용한 배열 생성 하나의 데이터 type만 배열에 넣을 수 있음 - Array dtype Ndarry의 single element가 가지는 data type 각 element가 차지하는 memory의 크기가 결정됨 예) np.array([[1, 2, 3], [4.5, 5, 6]], dtype=int) →Data type을 integer로 선언 - Groupby 한 개 이상의 column을 묶을 수 있음 두 개의 column으로 groupby를 할 경우, index가 두개 생성 groupby.sum() 예) df.groupby("Tea..