나의 분석일기 ♬

[NLP] 자연어처리 용어 본문

데이터 분석/NLP

[NLP] 자연어처리 용어

Screening Jang 2024. 9. 7. 15:53

- 코퍼스(Corpus)

말뭉치라는 뜻, 자연어 처리를 위해 모아놓은 텍스트 묶음을 의미

- 토큰(Token)

전체 문자열을 분석하고자하는 단위로 나눈 것을 의미. 토큰은 상황에 따라 문장 단위가 될 수도 있고 단어 단위가 될수도 있고 형태소 단위가 될수 있음

- 어휘 집합(Vocabulary Set)

처리하는 문제영역의 전체 단어 집합을 의미. 어휘 집합에 포함되지 않은 단어는 <UNK>라는 특수 토큰으로 처리

- 형태소(Morpheme)

언어학에서 일정한 의미가 있는 가장 작은 말의 단위

형태소는 그것이 가지는 의미 또는 기능에 따라 크게 문법형태소와 어휘형태소로 나누어짐

'데이터 분석 > NLP' 카테고리의 다른 글

[NLP] 자연어 처리를 위한 기초 지식  (4) 2024.09.07
[NLP] NLP 개요  (0) 2024.07.25
Comments