목록데이터 분석/NLP (3)
나의 분석일기 ♬

- 토크나이징(Tokenizing)전체 텍스트를 원하는 구분 단위로 나누는 것을 의미전체 텍스트를 문장 단위로 나눌 수 있고, 단어 단위로 나눌 수 있음- 원핫 인코딩(One-hot Encoding)범주형 값을 이진화된 값으로 바꿔서 표현하는 것을 의미해당 레이블을 나타내는 인덱스만 1의 값을 가지고 나머지 부분은 0의 값을 가진 Binary Value로 표현※ Integer Encoding의 문제점머신러닝 알고리즘이 정수 값으로부터 잘못된 경향성을 학습하게 될 수도 있다는 점 전통적인 자연어 처리 방법론에서는 단어 하나를 원핫 인코딩 형태로 표현이때 원핫 인코딩 벡터의 크기는 사용하는 어휘 집합의 크기가 됨어휘 집합의 크기가 일반적으로 큰 값이기 때문에 단어 표현이 희박(Sparse)해지게 됨-> 대부..

- 코퍼스(Corpus)말뭉치라는 뜻, 자연어 처리를 위해 모아놓은 텍스트 묶음을 의미- 토큰(Token)전체 문자열을 분석하고자하는 단위로 나눈 것을 의미. 토큰은 상황에 따라 문장 단위가 될 수도 있고 단어 단위가 될수도 있고 형태소 단위가 될수 있음- 어휘 집합(Vocabulary Set)처리하는 문제영역의 전체 단어 집합을 의미. 어휘 집합에 포함되지 않은 단어는 라는 특수 토큰으로 처리- 형태소(Morpheme)언어학에서 일정한 의미가 있는 가장 작은 말의 단위형태소는 그것이 가지는 의미 또는 기능에 따라 크게 문법형태소와 어휘형태소로 나누어짐

[NLP] NLP 개요자연어 처리(Natural Language Processing)자연어 - 한글, 영어, 사람이 소통할 때 사용하는 것인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나 기계 - 숫자 연산 잘함통계 - 평균, count, 최소, 최대통계 기반 NLP - 세는 것(단어) / 전처리 / 태스크딥러닝 NLP - 문장을 숫자로 잘 바꾸는 것에 집중 자연어 처리에 대한 관심이 중요한 이유- 비정형 데이터의 중요성인터넷과 모바일의 발달로 온라인 매체에 대한 데이터 급격하게 증가2017년 기준 전 세계에서 생성되는 데이터의 80%가 비정형데이터비정형 데이터 분석을 통해 합리적 의사결정을 하는데 도움 받을 수 있음- 소통 패러다임..