3주차 목표: 텍스트 분석 프로세스 이해하기 참고 자료: wikidocs.net/21694 1. 텍스트 분석 기본 용어 1. 토큰화 (Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다. 토큰화의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. (e.g. 단어, 문장) Corpus: 말뭉치 또는 코퍼스는 자연언어 연구를 위해 특정한 목적을..