본문 바로가기

ML

(3)
[ML] 머신러닝 모델링 시 필요한 데이터 종류 그리고 Epoch란? 이번 포스팅에서는 간단한 개념정의를 하려고 한다. 그동안 배웠던 머신러닝 모델링에 관한 내용은 아니니 쉽게 접근하면 되겠다. 소개할 주제는 다음과 같다. 1. 머신러닝 모델시 Train / Test / Validation 데이터들의 각각의 개념 2. Online Learning이란? 3. Epoch와 Batch의 개념 머신러닝을 모델링 하고 성능을 검증할 때 위 그림과 같이 Raw Data에서 2가지 또는 3가지로 나누어 준다. 학습률(Learning rate)과 Regularization Strength 상수값을 튜닝하기 위해서는 가장 밑의 3가지(훈련/검증/테스팅) 종류로 나눈 방법을 사용한다. 이렇게 3가지 종류로 나누어서 검증하는 이유는 쉽게 예를들면 이렇다. 중,고등학교 시절 우리는 중간고사를 ..
[ML] Learning rate, 데이터 전처리, Overfitting(과적합) 이번 포스팅에서는 머신러닝을 모델링할 때 중요시되는 3가지에 대해서 알아보고 머신러닝 모델링할 때 팁을 알아보려고 한다. 3가지는 다음과 같다. 1. Learning Rate(학습률) 2. Data preprocessing(데이터 전처리) 3. Overfitting(과적합) 학습률이라 함은 우리가 앞서서 같이 봐왔던 여러 회귀분석 모델에서 Cost값을 최소화시키기 위해 Gradient Decent 알고리즘을 사용했고 이 때 최소의 Cost값을 찾아가기 위해서 임의의 정도의 Step을 설정해주어야 한다고 했었다. 그림을 보면 기억이 날 것이다! 위 그림 속 빨간색 알파값이 바로 Learning Rate이다. 그러면 모델링을 하는 사람이 알파값을 크게 또는 작게 줄 때 대체 어떤 일이 발생할까? 한 번 알아..
[ML] Linear Regression(선형회귀분석) 머신러닝에는 기본적으로 Supervised Learning(지도 학습) 과 Unsupervised Learning(비지도 학습)으로 크게 구분된다. 두개의 차이에 대해서 정의하자면, 미리 '정답'을 알려주면서 기계에게 정답을 학습시켜줌으로써 기계가 그 정답을 습득하고 스스로 알아서 정답을 판단해주는 것이 '지도학습'이다. 반면에 '정답'을 미리 알려주지 않고 패턴이 없는 비정형 데이터안에서 일정의 패턴을 찾는 것이 '비지도 학습'이라고 보면 된다. 이번 포스팅에서 작성할 머신러닝 모델은 지도학습 중에서도 가장 기본적인 모델인 Linear Regression(선형회귀분석)에 대해서 작성해보려고 한다. 우선 선형회귀분석이라 함은 연속적인 숫자값을 예측하는 것이다. 쉽게 설명하기 위해서 밑의 예시를 들어보자...