목록데이터 분석 (15)
나의 분석일기 ♬

- 토크나이징(Tokenizing)전체 텍스트를 원하는 구분 단위로 나누는 것을 의미전체 텍스트를 문장 단위로 나눌 수 있고, 단어 단위로 나눌 수 있음- 원핫 인코딩(One-hot Encoding)범주형 값을 이진화된 값으로 바꿔서 표현하는 것을 의미해당 레이블을 나타내는 인덱스만 1의 값을 가지고 나머지 부분은 0의 값을 가진 Binary Value로 표현※ Integer Encoding의 문제점머신러닝 알고리즘이 정수 값으로부터 잘못된 경향성을 학습하게 될 수도 있다는 점 전통적인 자연어 처리 방법론에서는 단어 하나를 원핫 인코딩 형태로 표현이때 원핫 인코딩 벡터의 크기는 사용하는 어휘 집합의 크기가 됨어휘 집합의 크기가 일반적으로 큰 값이기 때문에 단어 표현이 희박(Sparse)해지게 됨-> 대부..

- 코퍼스(Corpus)말뭉치라는 뜻, 자연어 처리를 위해 모아놓은 텍스트 묶음을 의미- 토큰(Token)전체 문자열을 분석하고자하는 단위로 나눈 것을 의미. 토큰은 상황에 따라 문장 단위가 될 수도 있고 단어 단위가 될수도 있고 형태소 단위가 될수 있음- 어휘 집합(Vocabulary Set)처리하는 문제영역의 전체 단어 집합을 의미. 어휘 집합에 포함되지 않은 단어는 라는 특수 토큰으로 처리- 형태소(Morpheme)언어학에서 일정한 의미가 있는 가장 작은 말의 단위형태소는 그것이 가지는 의미 또는 기능에 따라 크게 문법형태소와 어휘형태소로 나누어짐

[NLP] NLP 개요자연어 처리(Natural Language Processing)자연어 - 한글, 영어, 사람이 소통할 때 사용하는 것인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나 기계 - 숫자 연산 잘함통계 - 평균, count, 최소, 최대통계 기반 NLP - 세는 것(단어) / 전처리 / 태스크딥러닝 NLP - 문장을 숫자로 잘 바꾸는 것에 집중 자연어 처리에 대한 관심이 중요한 이유- 비정형 데이터의 중요성인터넷과 모바일의 발달로 온라인 매체에 대한 데이터 급격하게 증가2017년 기준 전 세계에서 생성되는 데이터의 80%가 비정형데이터비정형 데이터 분석을 통해 합리적 의사결정을 하는데 도움 받을 수 있음- 소통 패러다임..

MACD 개념과 실습MACD(이동평균 수렴확산 지수)MACD 주가 추세의 강도, 방향, 모멘텀 및 지속 시간의 변화를 나타내도록 설계됨MACD 과거의 가격 데이터(대부분 증가)로부터 계산된 세가지 시계열의 모음이러한 세가지 시계열은 MACD 고유의 '신호','평균','확산'MACD 장기 지수이동평균과 단기 지수이동평균 간의 차이평균은 MACD 자체의 지수이동평균임 ex) MACD(12,26,9)가 표시된 주가 데이터파란색 선 : 주가의 12일 지수이동평균과 26일 지수이동평균의 차이빨간색 선 : MACD의 9일 지수이동평균의 시그널막대그래프 : 파란색 선과 빨간색 선의 차이값으로 오실레이터 MACD oscillatorMACD(12일 지수이동평균 -26일 지수이동평군) - signal(MACD 9일 지수이..

볼린저 밴드 개념 및 실습볼린저 밴드트레이딩 밴드 개념에서 발전된 볼린저 밴드와 상대지표 그리고 대역폭은 이전 거래와의 상대적 가격의 높음과 낮음을 판단하는데 사용됨켈트너 채널과 비슷한 변동성 지표. 주가가 이동평균선 중심으로 표준편차 범위 안에서 움직인다는 전제로 개발 볼린저 밴드 구성- N 기간동안의 이동평균(MA)- 이동 평균 위의 K배 표준편차 상위 밴드- 이동 평균 아래의 K배 표준편차 하위 밴드일반적으로 N값과 K값은 20과 2임평균값의 기본 선택의 단순이동평균이지만 필요에 따라 다른 종류의 평균값을 쓸수 있음. 지수이동평균은 일반적인 대안중간 밴드와 표준편차의 계산을 위해 같은 기간을 사용 볼린저 밴드의 목적가격의 상대적 높고 낮음에 대한 판단의 정의를 제공주가는 상단 밴드에서는 높고, 하..

이동평균선 & 이동평균선 돌파 전략 개념 및 실습기술적 분석주식 시장을 비롯한 금융시장을 분석하고 예측하는 기법 가운데 하나. 주로 시세 동향 그래프(차트)를 이용해 분석 - 금융 시장의 가격 예측 방법효율적 시장 가설(HEM) & 랜덤워크 이론→ 시장에서의 가격 예측이 불가능하다는 결론 기본적 분석수익성이 높은데 주가가 상대적으로 낮다면, 가격은 회사의 가치와 일치하는 방향으로 움직일 것이라 기대 기술적분석은 시장의 가격 그 자체에만 관심을 가짐. 가격 움직임의 원인에 관심 X과거의 시장 경험에 의존 미래의 가격이 어떻게 움직일지를 예측 이동평균선주가나 외환의 기술적 분석에서 사용되는 지표과거의 일정 기간의 주가의 평균치로부터 구함ex) 5일 이동평균선 : 과거 5일 동안의 주식 종가의 평균치를 매일 ..
재무제표 분석 프로젝트를 진행하면서 필요한 개념 정리재무제표란?과거부터 현시점까지 발생한 경제적 사건이 기록되어 있음기업의 재무상태와 경영실적 등 주주를 비롯한 이해관계자에게 보여주기 위해 만들어진 회계보고서대차대조표, 손익계산서, 자본변동표, 현금흐름표로 구성되어 있음재무제표특징내용재무상태표일정 시점자산과 부채, 자본의 총계와 그 과목 별 내역을 확인손익계산서일정 기간일정 기간의 수입, 지출, 이익과 그 과목 별 내역을 확인현금흐름표일정 기간의 현금 유출입 내역을 확인자본변동표일정 기간 동안 자본 항목 변동 확인 개념 정리1. 자산 관련 항목자산총계- 기업이 보유한 모든 자산의 총합을 의미. 유동자산 + 비유동자산유동자산- 1년 이내에 현금화할 수 있는 자산. ex) 현금, 매출채권, 재고자산 등매출채..
금융데이터를 위한 기본 금융 지식주식 데이터 기본 구성- 날짜 : 해당 가격의 시점을 나타냄- 시가 : 장 시작시 주가- 종가 : 장 종료시 주가- 고가 : 당일 최고가- 저가 : 당일 최저가- 거래량 : 당일 거래량 수정 주가(Adjusted Price)총 발행 주식수의 변화를 반영한 가격액면분할, 액면병합, 유상증자, 무상증자와 같이 발행주식수의 변화가 발생하면 가격의 변화가 생김EX) 어떤 회사가 액면분할을 통해 1주를 2개로 쪼갠다고 하면, 주식 수를 2배로 늘어나고 주식의 가격은 1/2로 낮아지며 시가 총액은 동일하게 유지 → 가격 데이터를 수정하지 않고 그대로 사용한다면 문제가 발생 수정 주가의 필요성백테스트를 하기 위해서는 주식 가격 데이터의 연속성이 보장되어야 함(가격의 연속성 보장하기 위..