본문 바로가기

LDA

(4)
[NLP] LDA를 활용한 Topic Modeling 구현하기 이번 포스팅에서는 주어진 수많은 단어들을 기반으로 토픽(Topic) 별 단어들의 분포를 확인하고 또 문서(Document)별 토픽들의 분포를 계산해서 문서들의 주제가 무엇인지 예측하는 Topic Modeling에 대해 다루려고 한다. 해당 포스팅은 토픽모델링에 대한 개념적인 깊이보다 파이썬으로 구현하는 내용에 초점이 맞추어져 있으므로 토픽 모델링, 그중에서도 LDA(Latent Dirichlet Allocation)의 이론에 대해 알고 싶다면 여기를 참고하자. 목차는 다음과 같다. 1. Topic Modeling의 종류 2. Python으로 LDA 구현해보기 1. Topic Modeling의 종류 토픽 모델링은 크게 확률에 기반한 모델과 행렬분해에 기반한 모델 2가지로 나뉘어 진다. 간단하게 종류에 대해..
[ML] LDA(선형판별분석)와 SVD(특이값 분할) 구현하기 이번 포스팅에서는 Linear Discriminant Analysis(LDA)인 선형판별분석과 Singular Value Decomposition(SVD)인 특이값 분할을 어떻게 구현할 수 있는지에 대해 살펴보려고 한다. 본 포스팅에서는 개념에 대해서는 간단히 다루므로 보다 깊숙한 개념은 여기를 참고하자. 목차는 다음과 같다. 1. LDA 구현해보기 2. SVD 구현해보기 1. LDA 구현해보기 LDA는 PCA와 비슷하게 입력 데이터셋을 저차원 공간으로 축소하는 기법이다. 하지만 PCA와는 다르게 LDA는 지도학습의 분류문제를 해결하기 수월하도록 클래스를 가장 잘 분류할 수 있는 선형을 최대한 잘 유지하는 축을 찾아준다는 차이점이 있다. LDA에 대한 목적함수나 수식에 대해서는 해당링크를 참고하자. LD..
[ML] Topic Modeling(토픽 모델)인 LDA(Latent Dirichlet Allocation) ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 Clustering의 방법 중 하나이며 비지도학습이기도 한 토픽 모델에 대해 알아보려고 한다. 또 토픽 모델 중 가장 유명한 LDA(Latent Dirichlet Allocation:잠재 디리클레 할당)에 대해 공부해보자. 토픽 모델은 원래는 텍스트를 위한 대표적인 Clustering 방법이였지만 현재 이미지와 다른 분야에 널리 사용되고 있다. 토픽 모델이라는 아이디어는 "방대한 양의 텍스트가 존재할 때 누가 이걸 대신 읽고 주제를 파악해줄 수 있을까?" 라는 생각에서 기원했다고 한다. 그런데 토픽모델은 Parameter에 따라 같은 데이터셋을 갖고도 다른 ..
[ML] PCA(주성분분석), SVD, LDA by Fisher ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 선형대수의 벡터를 기반으로 하는 모델들에 대해서 알아보려고 한다. 앞으로 소개할 모델들을 이해하기 위해서는 벡터공간에서의 기저(Basis)에 대한 개념 이해가 중요하다. 필자도 이 모델에 대한 수업을 들으면서 선형대수의 기초 개념 공부의 필요성을 느꼈고 개인적으로 오픈 소스 강의를 통해 학습을 진행하고 있다. 앞으로 소개할 목차는 다음과 같다. 1. 기본적으로 알고가야 할 개념 2. Eigen Value(고유값) Decomposition 3. SVD(Singular Value Decomposition) 4. PCA(Principal Component Anal..