나의 분석일기 ♬
[NLP] 자연어처리 용어 본문
- 코퍼스(Corpus)
말뭉치라는 뜻, 자연어 처리를 위해 모아놓은 텍스트 묶음을 의미
- 토큰(Token)
전체 문자열을 분석하고자하는 단위로 나눈 것을 의미. 토큰은 상황에 따라 문장 단위가 될 수도 있고 단어 단위가 될수도 있고 형태소 단위가 될수 있음
- 어휘 집합(Vocabulary Set)
처리하는 문제영역의 전체 단어 집합을 의미. 어휘 집합에 포함되지 않은 단어는 <UNK>라는 특수 토큰으로 처리
- 형태소(Morpheme)
언어학에서 일정한 의미가 있는 가장 작은 말의 단위
형태소는 그것이 가지는 의미 또는 기능에 따라 크게 문법형태소와 어휘형태소로 나누어짐

'데이터 분석 > NLP' 카테고리의 다른 글
| [NLP] 자연어 처리를 위한 기초 지식 (4) | 2024.09.07 |
|---|---|
| [NLP] NLP 개요 (0) | 2024.07.25 |
Comments