나의 분석일기 ♬
[NLP] NLP 개요 본문
[NLP] NLP 개요
자연어 처리(Natural Language Processing)
자연어 - 한글, 영어, 사람이 소통할 때 사용하는 것
인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
기계 - 숫자 연산 잘함
통계 - 평균, count, 최소, 최대
통계 기반 NLP - 세는 것(단어) / 전처리 / 태스크
딥러닝 NLP - 문장을 숫자로 잘 바꾸는 것에 집중
자연어 처리에 대한 관심이 중요한 이유
- 비정형 데이터의 중요성
인터넷과 모바일의 발달로 온라인 매체에 대한 데이터 급격하게 증가
2017년 기준 전 세계에서 생성되는 데이터의 80%가 비정형데이터
비정형 데이터 분석을 통해 합리적 의사결정을 하는데 도움 받을 수 있음
- 소통 패러다임의 변화
인간과 기계의 소통의 패러다임 변화
대화형 인터페이스로의 변화
자연어 처리의 어려운 점
자연어는 언어의 모호성을 가지기 때문에 처리가 어려움
동형의의어 : 철자와 발음이 모두 같은 동음이의어
동음이형어 : 철자는 다르나 발음이 같은 동음이의어
다의어 : 하나의 단어가 여러개의 의미를 가질 수 있음
한글 자연어 처리의 어려운 점
1. 구어와 문어의 차이
- 문어 : 정돈된 문법을 사용하고 있어 애매모호함이 적음
- 구어 : 완벽한 문법이나 형식적인 의미에 구애받지 않고 사용
2. 띄어쓰기의 어려움
- 아버지가 방에 들어가신다
- 아버지 가방에 들어가신다
3. 청자와 화자의 관계에 따른 높임법
4. 동음이의어. 운율적 요소에 따른 의미 변화
- 만났을 때 : 안녕?, 헤어질 때 : 안녕~
5. 주어 서술어 목적어 등의 빈번한 생략
- 문장의 필수 요소(주어, 서술어, 목적어 등)가 생략되면서 겪는 분석의 어려움
자연어처리로 해볼 수 있는 것
- 실시간 리뷰 모니터링
소셜 네트워크 및 디지털 마케팅 시대에 고객의 목소리는 점점 강해지고 있음
리뷰 정보 수집을 통해 시장반응 모니터링이 가능
- 경쟁사 분석
- 뉴스레터 메일링 / SNS 자동 포스팅
뉴스레터 담당자는 정기적으로 시장 동향을 정리해서 뉴스레터를 발송
- 고객 분석
우리 제품에 대한 리뷰를 남긴 고객을 인구통계학적으로 분석해 본다면 추정이 가능
텍스트 마이닝
언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형 및 비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미있는 정보를 발견할 수 있도록 하는 기술
텍스트 마이닝 기법
- 단어 빈도분석
텍스트 데이터를 분석할 때 가장 보편적으로 활용되는 방법
데이터의 흐름을 파악하는 기초 단계
- 군집 분석
유사한 데이터들을 서로 묶어주는 분석
- 토픽 모델링
구조화되지 않은 방대한 문헌집단에서 주제를 찾아내기 위한 알고리즘
- 감정 분석
텍스트에 나타난 주관성 요소를 탐지하여 긍정과 부정의 요소 및 그 정도를 판별하여 정량화하는 방법
- 연관어 분석
두 개의 단어가 주어진 문맥(문서, 문단, 문장)에서 서로 얼마나 연관되어 있는지에 대한 분석
텍스트 마이닝 절차

'데이터 분석 > NLP' 카테고리의 다른 글
| [NLP] 자연어 처리를 위한 기초 지식 (4) | 2024.09.07 |
|---|---|
| [NLP] 자연어처리 용어 (1) | 2024.09.07 |