본문 바로가기

분류

(2)
[PySpark] 타이타닉 데이터로 분류 모델 만들기 🔊 본 포스팅은 PySpark를 활용한 Kaggle Notebook을 필사하면서 배우게 된 코드 내용을 기반으로 포스팅했음을 알려드립니다. 또한 앞으로 소개될 PySpark의 문법에 대해서 생소하시다면 여기를 참고해 간단한 예시를 통해 이해를 할 수 있습니다. 이번 포스팅에서는 PySpark 그 중에서도 Spark SQL 과 Spark MLlib을 활용한 머신러닝 분류 모델을 만드는 방법에 대해 소개하려고 한다. 활용한 데이터는 머신러닝에 입문할 때 가장 많이 사용되는 타이타닉의 Train 데이터를 사용했다. 1. 필요한 라이브러리와 데이터 로드 가장 먼저 할 일은 데이터 로드와 모델 빌딩 시 사용될 Spark SQL, Spark MLlib의 여러가지 메소드들을 임포트하자. 참고로 PySpark를 사용해..
[ML] Logistic Regression for Classification 이번 포스팅에서는 바로 직전에 포스팅 했던 Linear Regression과는 조금 다른 로지스틱 리그레션에 대해 다룰 예정이다. 로지스틱 리그레션은 연속하는 값을 예측하는 선형회귀와 달리 원-핫 인코딩을 이용해서 분류 값을 예측하는 모델이다. 로지스틱 리그레션은 3가지만 기억하자! Linear Regression에 Sigmoid 씌우기 Cost값(예측,실제 값 차이) 측정 Cost값을 최소화 하기 위해 Gradient Decent(기울기 하강) 적용 우선, 선형회귀분석의 한계 부터 알아보자. 간단한 예시를 들어보겠다. 위 그림은 공부시간에 따른 시험의 합격/불합격에 대한 그래프이다. x축은 공부시간, y축은 시험 통과 여부이다. 우선 파란색으로 그려진 x와 o 표시로 된 데이터에 기반해서 파란색의 Li..