나의 분석일기 ♬

머신러닝_교차검증 본문

데이터 분석/Machine Learning

머신러닝_교차검증

Screening Jang 2023. 3. 7. 11:38

교차검증

모델이 학습데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측성능이 과도하게 떨어지는 현상을 과적합이라 하는데 이러한 문제점을 개선하기 위해 교차검증을 이용해 더 다양한 학습과 평가를 수행

교차검증이란, 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것

 

교차검증의 장단점

 

1) 장점

- 특정 데이터 셋에 대한 과적합 방지

- 더욱 일반화된 모델 생성 가능

- 데이터셋의 규모가 적을 시 과소적합 방지

 

2) 단점

- 모델 훈련 및 평가 소요시간 증가

 

교차검증의 종류

교차검증에도 정말 많은 종류가 있고 데이터 특성에 따라서 사용되는 기법이 다를 수 있음

 

1) 홀드아웃 교차검증(hold-out cross validation)

데이터를 랜덤하게 두분류(train,test)로 분리하여 교차검증을 실시하는 방법

 

2) K 폴드 교차검증(k-fold cross validation)

가장 보편적으로 사용되는 교차 검증 기법

K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증평가를 반복적으로 수행하는 방법

k-fold cross-validation 방법 (출처:  http://ethen8181.github.io/machine-learning/model_selection/model_selection.html )

- k-fold cross validation 사용법

 

3) Stratified K 폴드 교차검증(stratified k-fold cross validation)

불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식

(ex) 대출 사기 데이터(대출사기 : 극소수, 정상대출 : 대부분)

K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해줌

 

- stratified k-fold cross validation 사용법

'데이터 분석 > Machine Learning' 카테고리의 다른 글

[머신 러닝]군집 분석(Cluster Analysis)  (0) 2024.06.17
Comments