※무단 사용 및 펌을 절대 금지합니다 이 페이지에서만 봐주세요.※ 하나 하나 손으로 기입한 것이어서 잘못된 내용이나 오타가 있을 수 있습니다 댓글로 제보해주세요 분야 용어 용어 풀이 텍스트 전처리 토큰화 Tokenization 언어를 한 단위의 의미를 가지는 문자열로 쪼개는 과정이다. 토큰화에는 문장 토큰화, 단어 토큰화 등이 있다. 영어는 nltk, 한국어는 konlpy를 많이 쓰며, bert의 영향으로 BPE 방식의 SentencePiece 토크나이저도 많이 사용된다. 어간 추출 Stemming 어간(stem)을 추출하는 작업으로, 룰 기반으로 작동하는 경우가 많다. 어미나 조사를 제거하여 준다. 표제어 추출 Lemmatization 표제어를 추출하는 작업으로, 사전에 실리는 대표어로 대체해주는 작업..