machine learning 2

[Machine Learning] 2주차 스터디 - Multi variable linear regression & Logistic Regression

04 Multi-variable linear regression Hypothesis Cost function Matrix multiplication Hypothesis using matrix 앞 matrix의 열의 개수와 뒤 matrix의 행의 개수가 일치해야 함 Many x instances data의 instance가 많은 경우에도 동일하게 표현 가능 matrix를 쓰는 큰 장점 Hypothesis using matrix (n output) n은 instance의 개수, 2는 결과 값의 개수 이 때 W[?, ?] => [3, 2] WX vs XW Lecture (theory) Implementation (TensorFlow) 행렬 계산이기 때문에 Code import tensorflow as tf i..

[Machine Learning] 3주차 스터디 - 텍스트 분석 기초

3주차 목표: 텍스트 분석 프로세스 이해하기 참고 자료: wikidocs.net/21694 1. 텍스트 분석 기본 용어 1. 토큰화 (Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다. 토큰화의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. (e.g. 단어, 문장) Corpus: 말뭉치 또는 코퍼스는 자연언어 연구를 위해 특정한 목적을..