본문 바로가기

오버샘플링

(2)
[ML] Class imbalance 해결을 위한 다양한 Sampling 기법 🔉해당 포스팅에서 사용된 자료는 고려대학교 산업경영공학부 김성범교수님의 Youtube 강의자료에 기반했음을 알려드립니다. 혹여나 출처를 밝혔음에도 불구하고 저작권의 문제가 된다면 joyh951021@gmail.com으로 연락주시면 해당 자료를 삭제하겠습니다. 감사합니다. 이번 포스팅에서는 데이터 불균형, 명확하게는 종속변수인 클래스(레이블) 불균형을 해결하기 위한 다양한 샘플링 기법에 대해 알아보려고 한다. 클래스 불균형이 구체적으로 무엇이고 대략적인 해결방안에 대해 알고 싶다면 여기를 참고하자. 클래스 불균형을 해결하기 위해서는 크게 데이터에서 수행할 수 있는 샘플링 기법, 모델링 과정에서 수행할 수 있는 비용기반 학습(Cost-sensitive learning)과 단일 클래스 분류기법(Novelty ..
[ML] Scikit-learn을 이용한 Feature engineering 구현하기 이번 포스팅에서는 Scikit-learn을 이용해 데이터의 feature를 engineering 하는 간단한 방법들에 대해 알아보려고 한다. 그동안 다양한 feature engineering 방법을 이론적으로나마 배워왔다. 수많은 feature engineering 방법들이 존재하고 지금도 새롭고 놀라운 방법들이 개발되고 있지만 모든 방법을 다루지는 못한다. 따라서 이번 글에서는 간단한 몇 가지 방법들만 살펴보고 코드로 구현해보려고 한다. 소개할 feature engineering 방법들은 다음과 같다. 1. 편향된 분포를 정규분포화 시켜주기 위한 log 변환 2. 이상치(Outlier) 제거하기 3. SMOTE를 이용한 Oversampling 하기 1. 편향된 분포를 정규분포화 시켜주기 위한 log 변..