본문 바로가기

Topic Modeling

(2)
[NLP] LDA를 활용한 Topic Modeling 구현하기 이번 포스팅에서는 주어진 수많은 단어들을 기반으로 토픽(Topic) 별 단어들의 분포를 확인하고 또 문서(Document)별 토픽들의 분포를 계산해서 문서들의 주제가 무엇인지 예측하는 Topic Modeling에 대해 다루려고 한다. 해당 포스팅은 토픽모델링에 대한 개념적인 깊이보다 파이썬으로 구현하는 내용에 초점이 맞추어져 있으므로 토픽 모델링, 그중에서도 LDA(Latent Dirichlet Allocation)의 이론에 대해 알고 싶다면 여기를 참고하자. 목차는 다음과 같다. 1. Topic Modeling의 종류 2. Python으로 LDA 구현해보기 1. Topic Modeling의 종류 토픽 모델링은 크게 확률에 기반한 모델과 행렬분해에 기반한 모델 2가지로 나뉘어 진다. 간단하게 종류에 대해..
[ML] Topic Modeling(토픽 모델)인 LDA(Latent Dirichlet Allocation) ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 Clustering의 방법 중 하나이며 비지도학습이기도 한 토픽 모델에 대해 알아보려고 한다. 또 토픽 모델 중 가장 유명한 LDA(Latent Dirichlet Allocation:잠재 디리클레 할당)에 대해 공부해보자. 토픽 모델은 원래는 텍스트를 위한 대표적인 Clustering 방법이였지만 현재 이미지와 다른 분야에 널리 사용되고 있다. 토픽 모델이라는 아이디어는 "방대한 양의 텍스트가 존재할 때 누가 이걸 대신 읽고 주제를 파악해줄 수 있을까?" 라는 생각에서 기원했다고 한다. 그런데 토픽모델은 Parameter에 따라 같은 데이터셋을 갖고도 다른 ..