본문 바로가기

고윳값

(2)
[ML] PCA, 주성분의 개수는 어떤 기준으로 설정할까? 이번 포스팅에서는 기존 여러 개의 변수의 차원의 축소를 수행해주면서 추출되는 새로운 변수를 만드는 즉, Feature extraction 중 한 가지 방법으로서 PCA(주성분 분석)에 대한 내용이다. PCA가 구체적으로 무엇이고 정의는 어떻게 되는지에 대해서는 기존 포스팅을 참고하자. 그래서 이번에 다룰 내용은 PCA를 수행할 때 '몇 개'의 변수로 차원을 축소할지 결정하는 기준에 대한 내용이다. 이 기준에 대해서 알아보기 위해 예시 데이터를 활용해서 적절한 주성분 개수를 설정해보자. 참고로 이번에 사용될 데이터는 종속변수가 없는 독립변수들 끼리만 활용해볼 것이다. 왜냐하면 이번 포스팅의 목적은 PCA를 통해 종속변수 예측력에 영향을 준다는 내용보다는 독립변수들에 PCA 수행을 해주었을 때 몇 개의 주성..
[ML] Spectral Clustering(스펙트럴 클러스터링) 이번 포스팅에서는 클러스터링 모델 중 하나로서 스펙트럴 클러스터링에 대해서 소개하려 한다. 여기서 스펙트럴(Spectral) 자체는 행렬의 고윳값(Eigenvalue)을 의미한다. 이는 추후에 고윳값을 어떻게 활용할 것이라는 걸 암시해주는 듯하다. 1. Parametric-based V.S Graph-based 기본적으로 클러스터링 알고리즘엔 Parametric-based 와 Graph-based 알고리즘이 존재한다. 이전에 우리가 배웠던 K-means 클러스터링같은 경우 Parametric-based 방법이라고 정의할 수 있다.(참고로 Knn(K-nearest Neighbors) 모델은 Non-parametric 클러스터링 모델이다.) 이번에는 Graph-based 방법인 Spectral Cluster..