본문 바로가기

Apache Spark

(2)
[PySpark] 컨텐츠 기반 영화 추천 시스템 만들어보기 🔊 본 포스팅은 PySpark를 활용한 Kaggle Notebook을 필사하면서 배우게 된 코드 내용을 기반으로 포스팅했음을 알려드립니다. 또한 앞으로 소개될 PySpark의 문법에 대해서 생소하시다면 여기를 참고해 간단한 예시를 통해 이해를 할 수 있습니다. 이번 포스팅에서는 PySpark 그 중에서도 Spark SQL 과 Spark MLlib을 활용해 잠재요인 기반의 영화 추천 시스템을 구현해보려 한다. 활용한 데이터는 Kaggle의 무비렌즈 데이터의 movies, ratings 데이터를 필자가 직접 전처리한 데이터를 활용했다. 전처리된 데이터를 활용하려면 여기를 클릭해 다운로드 받자. 추천 시스템 중에는 컨텐츠 기반 추천, 협업 기반 추천 등의 여러 종류가 있지만 여기서는 다른 사용자들의 제품에 대..
[PySpark] Apache Spark 와 RDD 자료구조 🔊 본 포스팅은 Apache Spark 3.0.1 공식 문서를 직접 해석하여 필자가 이해한 내용으로 재구성했습니다. 혹여나 컨텐츠 중 틀린 내용이 있다면 적극적인 피드백은 환영입니다! : ) 이번 포스팅에서는 대용량 데이터 병렬 처리를 위한 통합 분석 엔진인 Apache Spark와 Apache Spark의 기본 자료 구조인 RDD 자료구조에 대해 소개하려 한다. Apache Spark는 구조화된 데이터를 처리하기 위한 Spark SQL과 머신러닝을 위한 ML Lib, 그래프 처리를 위한 Graph X, 실시간 처리와 방대한 연산을 위한 Structured Streaming 도구도 제공한다. 또한 Apache Spark는 본래 Scala 언어로 만들어졌지만 Java, R, Python 등과 같은 다양한 ..