나의 분석일기 ♬
머신러닝_교차검증 본문
교차검증
모델이 학습데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측성능이 과도하게 떨어지는 현상을 과적합이라 하는데 이러한 문제점을 개선하기 위해 교차검증을 이용해 더 다양한 학습과 평가를 수행
교차검증이란, 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것
교차검증의 장단점
1) 장점
- 특정 데이터 셋에 대한 과적합 방지
- 더욱 일반화된 모델 생성 가능
- 데이터셋의 규모가 적을 시 과소적합 방지
2) 단점
- 모델 훈련 및 평가 소요시간 증가
교차검증의 종류
교차검증에도 정말 많은 종류가 있고 데이터 특성에 따라서 사용되는 기법이 다를 수 있음
1) 홀드아웃 교차검증(hold-out cross validation)
데이터를 랜덤하게 두분류(train,test)로 분리하여 교차검증을 실시하는 방법
2) K 폴드 교차검증(k-fold cross validation)
가장 보편적으로 사용되는 교차 검증 기법
K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증평가를 반복적으로 수행하는 방법
- k-fold cross validation 사용법
3) Stratified K 폴드 교차검증(stratified k-fold cross validation)
불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식
(ex) 대출 사기 데이터(대출사기 : 극소수, 정상대출 : 대부분)
K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해줌
- stratified k-fold cross validation 사용법
'데이터 분석 > Machine Learning' 카테고리의 다른 글
[머신 러닝]군집 분석(Cluster Analysis) (0) | 2024.06.17 |
---|