본문 바로가기

클래스 불균형

(2)
[ML] Class imbalance 해결을 위한 다양한 Sampling 기법 🔉해당 포스팅에서 사용된 자료는 고려대학교 산업경영공학부 김성범교수님의 Youtube 강의자료에 기반했음을 알려드립니다. 혹여나 출처를 밝혔음에도 불구하고 저작권의 문제가 된다면 joyh951021@gmail.com으로 연락주시면 해당 자료를 삭제하겠습니다. 감사합니다. 이번 포스팅에서는 데이터 불균형, 명확하게는 종속변수인 클래스(레이블) 불균형을 해결하기 위한 다양한 샘플링 기법에 대해 알아보려고 한다. 클래스 불균형이 구체적으로 무엇이고 대략적인 해결방안에 대해 알고 싶다면 여기를 참고하자. 클래스 불균형을 해결하기 위해서는 크게 데이터에서 수행할 수 있는 샘플링 기법, 모델링 과정에서 수행할 수 있는 비용기반 학습(Cost-sensitive learning)과 단일 클래스 분류기법(Novelty ..
[ML] Class imbalance(클래스 불균형)이란? 이번 포스팅에서는 머신러닝 분류 문제에 있어서 '클래스 불균형' 에 대한 간단한 주제에 다룰 예정이다. 머신러닝 모델을 평가하는 하나의 지표로서 F1 score이란 것을 고려한다. F1 score은 Precision과 Recall의 조화평균으로부터 나오는 지표이다. F1 score은 그럼 언제 사용할까? 주로 데이터 Class(Lable)이 불균형 구조일 때 모델 성능을 정확히 평가한다고 한다. 필자는 '데이터 클래스 불균형' 이라는 개념에 대해 생소했고 이를 알아보기 위해 갓구글링의 도움을 받아보았다. 먼저 데이터 불균형 구조에 대한 정의부터 알아보자. 데이터 불균형이란 어떤 데이터에서 각 클래스(주로 범주형 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우를 말한다. 예를 들어, 병원에서 질병이 있는..