본문 바로가기

Apache-Spark

(2)
[PySpark] PySpark로 Regression 모델 만들기 🔊 본 포스팅은 PySpark를 활용한 Kaggle Notebook을 필사하면서 배우게 된 코드 내용을 기반으로 포스팅했음을 알려드립니다. 또한 앞으로 소개될 PySpark의 문법에 대해서 생소하시다면 여기를 참고해 간단한 예시를 통해 이해를 할 수 있습니다. 이번 포스팅에서는 PySpark 그 중에서도 Spark SQL 과 Spark MLlib을 활용한 머신러닝 회귀 모델을 만드는 방법에 대해 소개하려고 한다. 활용한 데이터는 California Housing 데이터를 사용했다. 데이터는 여기를 눌러 하단의 Input 목차를 보면 다운로드 받을 수 있다. 이전 포스팅에서 실습해봤던 분류 모델과 큰 프레임이 다르진 않다. 따라서 이번 포스팅에서는 수치형 변수에 주로 적용하는 기술통계량 값을 보는 방법이나..
[PySpark] 타이타닉 데이터로 분류 모델 만들기 🔊 본 포스팅은 PySpark를 활용한 Kaggle Notebook을 필사하면서 배우게 된 코드 내용을 기반으로 포스팅했음을 알려드립니다. 또한 앞으로 소개될 PySpark의 문법에 대해서 생소하시다면 여기를 참고해 간단한 예시를 통해 이해를 할 수 있습니다. 이번 포스팅에서는 PySpark 그 중에서도 Spark SQL 과 Spark MLlib을 활용한 머신러닝 분류 모델을 만드는 방법에 대해 소개하려고 한다. 활용한 데이터는 머신러닝에 입문할 때 가장 많이 사용되는 타이타닉의 Train 데이터를 사용했다. 1. 필요한 라이브러리와 데이터 로드 가장 먼저 할 일은 데이터 로드와 모델 빌딩 시 사용될 Spark SQL, Spark MLlib의 여러가지 메소드들을 임포트하자. 참고로 PySpark를 사용해..