나의 분석일기 ♬

[NLP] NLP 개요 본문

데이터 분석/NLP

[NLP] NLP 개요

Screening Jang 2024. 7. 25. 10:47

[NLP] NLP 개요

자연어 처리(Natural Language Processing)

자연어 - 한글, 영어, 사람이 소통할 때 사용하는 것

인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나

 

기계 - 숫자 연산 잘함

통계 - 평균, count, 최소, 최대

통계 기반 NLP - 세는 것(단어) / 전처리 / 태스크

딥러닝 NLP - 문장을 숫자로 잘 바꾸는 것에 집중

 

자연어 처리에 대한 관심이 중요한 이유

- 비정형 데이터의 중요성

인터넷과 모바일의 발달로 온라인 매체에 대한 데이터 급격하게 증가

2017년 기준 전 세계에서 생성되는 데이터의 80%가 비정형데이터

비정형 데이터 분석을 통해 합리적 의사결정을 하는데 도움 받을 수 있음

- 소통 패러다임의 변화

인간과 기계의 소통의 패러다임 변화

대화형 인터페이스로의 변화

 

자연어 처리의 어려운 점

자연어는 언어의 모호성을 가지기 때문에 처리가 어려움

동형의의어 : 철자와 발음이 모두 같은 동음이의어

동음이형어 : 철자는 다르나 발음이 같은 동음이의어

다의어 : 하나의 단어가 여러개의 의미를 가질 수 있음

 

한글 자연어 처리의 어려운 점

1. 구어와 문어의 차이

- 문어 : 정돈된 문법을 사용하고 있어 애매모호함이 적음

- 구어 : 완벽한 문법이나 형식적인 의미에 구애받지 않고 사용

2. 띄어쓰기의 어려움

- 아버지가 방에 들어가신다

- 아버지 가방에 들어가신다

3. 청자와 화자의 관계에 따른 높임법

4. 동음이의어. 운율적 요소에 따른 의미 변화

- 만났을 때 : 안녕?, 헤어질 때 : 안녕~

5. 주어 서술어 목적어 등의 빈번한 생략

- 문장의 필수 요소(주어, 서술어, 목적어 등)가 생략되면서 겪는 분석의 어려움

 

자연어처리로 해볼 수 있는 것

- 실시간 리뷰 모니터링

소셜 네트워크 및 디지털 마케팅 시대에 고객의 목소리는 점점 강해지고 있음

리뷰 정보 수집을 통해 시장반응 모니터링이 가능

- 경쟁사 분석

- 뉴스레터 메일링 / SNS 자동 포스팅

뉴스레터 담당자는 정기적으로 시장 동향을 정리해서 뉴스레터를 발송

- 고객 분석

우리 제품에 대한 리뷰를 남긴 고객을 인구통계학적으로 분석해 본다면 추정이 가능

 

 

텍스트 마이닝

언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형 및 비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미있는 정보를 발견할 수 있도록 하는 기술

 

텍스트 마이닝 기법

- 단어 빈도분석

텍스트 데이터를 분석할 때 가장 보편적으로 활용되는 방법

데이터의 흐름을 파악하는 기초 단계

- 군집 분석

유사한 데이터들을 서로 묶어주는 분석

- 토픽 모델링

구조화되지 않은 방대한 문헌집단에서 주제를 찾아내기 위한 알고리즘

- 감정 분석

텍스트에 나타난 주관성 요소를 탐지하여 긍정과 부정의 요소 및 그 정도를 판별하여 정량화하는 방법

- 연관어 분석

두 개의 단어가 주어진 문맥(문서, 문단, 문장)에서 서로 얼마나 연관되어 있는지에 대한 분석

 

텍스트 마이닝 절차

 

'데이터 분석 > NLP' 카테고리의 다른 글

[NLP] 자연어 처리를 위한 기초 지식  (4) 2024.09.07
[NLP] 자연어처리 용어  (1) 2024.09.07
Comments