본문 바로가기

NLP

(2)
[NLP] 텍스트 분류와 감성(Sentiment)분석 구현하기 이번 포스팅에서는 sklearn의 내장된 데이터와 Kaggle 데이터를 활용해 뉴스 기사 데이터들의 카테고리를 분석하는 텍스트 분류, 그리고 Review의 감성(긍정, 부정)을 분류해보는 실습내용에 대해 소개하려고 한다. 텍스트 데이터 분석, 모델링 과정 프로세스에 대해서는 여기를 참고하자. 목차는 다음과 같다. 1. 뉴스 카테고리 분류하기 2. 리뷰 감성 분류하기 1. 뉴스 카테고리 분류하기 네이버, 다음, 그리고 여러 종류의 언론사 각각의 홈페이지를 방문해 보면 다양한 카테고리의 뉴스가 존재하는 것을 알 수 있다. 그리고 각 뉴스 기사의 카테고리를 지정하는 기준은 해당 뉴스의 내용이 기반이 된다. 그렇다면 뉴스 내용의 텍스트를 기반으로 해당 뉴스의 카테고리를 예측할 수 있지 않을까? 이러한 예시 이외..
[NLP] 텍스트를 이용한 머신러닝 프로세스에 대한 이해 새로운 포스팅 카테고리를 추가했다. 주제는 NLP(Natural Language Processing)이라고 불리는 '자연어 처리'이다. 자연어 처리는 텍스트 분류, 감성분석, 텍스트 요약, 텍스트 군집화 또는 유사도 측정과 같이 여러가지 분야에서 널리 사용되고 있다. 필자는 자연어 처리에 대한 기본적인 사전 지식이 없었기 때문에 개인적인 기회를 통해서 공부해야 했다. 그리고 우연히 마주했던 Google Assistant NLP팀의 언어학자로 일하시는 박지호님의 NLP Tutorial을 통해서 자연어처리를 입문했다. 해당 블로그를 꾸준히 구독하고 있고 글을 읽으면서 습득한 내용을 따로 기록하고 있다. 추후에 자연어처리의 기본에 대한 내용을 꼭 내 블로그에도 포스팅할 예정이다. 이번 글에서는 텍스트 형식의 ..