본문 바로가기

군집화

(2)
[ML] Mean Shift, DBSCAN, and Silhouette metric 이번 포스팅에서는 군집화 모델인 Mean Shift와 DBSCAN에 대해 알아보고 군집화 모델의 성능을 평가하는 지표인 Silhouette metric에 대해서 소개하려한다. 그리고 이 두 가지 모델들과 평가지표를 Scikit-learn을 이용해서 간단하게 구현해보는 시간도 갖는다. 목차는 다음과 같다. 1. Mean Shift 2. DBSCAN(Density Based Spatial Clustering of Application with Noise) 3. Silhouette metric for clustering 1. Mean Shift Mean Shift는 Non-parametric(비모수 방법론) 모델이며 KDE(Kernel Density Estimation)을 이용하여 개별 데이터 포인트들이 데이..
[ML] K-means 와 GMM(Gaussian Mixture Model) 구현하기 이번 포스팅에서는 군집화 모델 중 K-means와 GMM을 Scikit-learn을 이용해서 구현해보려 한다. K-means는 대표적인 Semi-parametric 모델이며 GMM은 Parametric 모델이라는 점에서 두 개의 모델 간에 차이점이 존재한다. 이 각 모델들에 대한 자세한 이론적인 설명이 알고 싶다면 K-means는 여기, GMM은 여기를 참고하자. 1. K-means K-means 알고리즘은 쉽고 간결하며 대용량 데이터에도 활용이 가능하다. 하지만 거리 기반 알고리즘으로 feature의 개수가 너무 많아진다면 군집화의 성능이 저하된다. 따라서 경우에 따라 PCA로 차원을 축소하여 적용하기도 한다. 또한 반복적인(iterative) 알고리즘이기 때문에 반복 횟수가 급격히 많아질 경우 학습 ..