본문 바로가기

PCA

(3)
[ML] PCA, 주성분의 개수는 어떤 기준으로 설정할까? 이번 포스팅에서는 기존 여러 개의 변수의 차원의 축소를 수행해주면서 추출되는 새로운 변수를 만드는 즉, Feature extraction 중 한 가지 방법으로서 PCA(주성분 분석)에 대한 내용이다. PCA가 구체적으로 무엇이고 정의는 어떻게 되는지에 대해서는 기존 포스팅을 참고하자. 그래서 이번에 다룰 내용은 PCA를 수행할 때 '몇 개'의 변수로 차원을 축소할지 결정하는 기준에 대한 내용이다. 이 기준에 대해서 알아보기 위해 예시 데이터를 활용해서 적절한 주성분 개수를 설정해보자. 참고로 이번에 사용될 데이터는 종속변수가 없는 독립변수들 끼리만 활용해볼 것이다. 왜냐하면 이번 포스팅의 목적은 PCA를 통해 종속변수 예측력에 영향을 준다는 내용보다는 독립변수들에 PCA 수행을 해주었을 때 몇 개의 주성..
[ML] Scikit-learn을 이용한 PCA 구현하기 이번 포스팅에서는 PCA에 대해 간단하게 알아보고 언제 PCA를 사용해야할지, 그리고 Scikit-learn 라이브러리를 이용해 PCA를 간단하게 구현해보는 내용에 대해 소개하려 한다. PCA에 대한 자세한 이론은 여기를 참고하자. 목차는 다음과 같다. 1. PCA란? 2. Scikit-learn 이용해 PCA 구현하기 1. PCA란? PCA란, Principal Components Analysis로 한국어로는 '주성분 분석'이다. PCA는 feature 개수가 너무 많을 때, 여러 feature들의 내재된(latent) feature를 추출하는 것이다. PCA를 본격적으로 소개하기 전에 feature selection(선택) 과 feature extraction(추출)의 차이점에 대해서 짚고 넘어가자...
[ML] PCA(주성분분석), SVD, LDA by Fisher ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 선형대수의 벡터를 기반으로 하는 모델들에 대해서 알아보려고 한다. 앞으로 소개할 모델들을 이해하기 위해서는 벡터공간에서의 기저(Basis)에 대한 개념 이해가 중요하다. 필자도 이 모델에 대한 수업을 들으면서 선형대수의 기초 개념 공부의 필요성을 느꼈고 개인적으로 오픈 소스 강의를 통해 학습을 진행하고 있다. 앞으로 소개할 목차는 다음과 같다. 1. 기본적으로 알고가야 할 개념 2. Eigen Value(고유값) Decomposition 3. SVD(Singular Value Decomposition) 4. PCA(Principal Component Anal..