본문 바로가기

카이제곱분포

(3)

[ML] How to correlate one or two categorical variables? 이번 포스팅에서는 범주형 변수간의 상관관계를 분석하는 방법에 대해 알아보려고 한다. 우리가 그동안 자주 사용해왔던 Pearson Correlation, 즉, 상관관계 분석은 수치형 변수간의 관계를 분석하는 데만 사용이 된다. 물론 한 가지 예외 사항이 있다. 예를 들어 2개의 변수가 존재할 때, 한 변수는 연속적인 수치형 변수이고 다른 변수는 수치형의 binary값(0 또는 1로 one-hot encoding되어 있는 상태)으로 변환되어 있는 범주형 변수라고 하자. 이 때 범주형 변수가 어찌됬건 수치형 변수로 변환되어 있는 상태이기 때문에 두 변수간의 Pearson Correlation을 구해 두 변수간의 관계를 구할 수 있다.(근본적으로는 Point-biserial Correlation(점-이연 상관계..

감마, 베타, 카이제곱 분포와 t분포, F분포에 대한 이해 🔉해당 포스팅에서 사용된 자료는 고려대학교 산업경영공학부 김성범교수님의 Youtube 강의자료에서 발췌했음을 알려드립니다. 혹여나 출처를 밝혔음에도 불구하고 저작권의 문제가 된다면 joyh951021@gmail.com으로 연락주시면 해당 자료를 삭제하겠습니다. 감사합니다. 이번 포스팅에서는 그동안 확률분포 관련 포스팅에서 다루어보지 않았었던 감마, 베타, 카이제곱 분포, 그리고 t분포와 F분포에 대해 알아보려고 한다. 각 확률분포에 대한 PDF 함수 공식과 분포 생김새도 알아보며 서로가 어떤 관련이 있는지에 대해서도 알아보자. 목차는 다음과 같다. 1. 감마 분포 2. 베타 분포 3. 카이제곱 분포 4. t분포 5. F분포 1. 감마 분포 감마분포와 다음 목차에서 소개할 베타분포는 기본적으로 지수분포와 ..

[통계] 표본분산을 통한 모분산 예측과 카이제곱 분포 "표본평균의 평균값은 모평균의 값과 같다" 라는 공식을 이용해서 우리는 표본평균을 통해 모수(모집단의 특성)인 모평균을 구해보았다. 이번에는 표본분산을 통해서 어떻게 모분산을 예측하는지, 그리고 또 다른 분포로 카이제곱 분포의 개념에 대해서 알아보려고 한다. 우선 본론에 들어가기 앞서 저번 시간에 '신뢰도'라는 개념이 글 말미에 잠깐 등장하였지만 자세히는 소개하지 않아서 인트로로 신뢰도에 대해 소개하고 표본분산으로 넘어가려고 한다. 우선 신뢰도에는 대표적으로 95%, 99% 신뢰도가 존재한다. 밑의 그림을 보자. 저번시간에 구해봤던 것처럼 표본평균의 평균값은 모평균의 값과 같은 사실, 표본평균의 분산값은 모집단의 분산값을 표본의 갯수 n개로 나눈값과 같다 는 두 가지 사실을 알게 되었었다. 또한 우리는 ..

티스토리툴바