본문 바로가기

Archive

Think whether ML/DL is applied to the selected data.

반응형

저번주부터 DSC 동아리에서 첫 팀 프로젝트로 ML 팀과 스팸메일 팀으로 나누어서 프로젝트를 시작했다.

나는 ML팀에 속하게 되었다. 구체적으로 ML팀에서 하기로 한 프로젝트는 자신이 좋아하고 선호하는 데이터를

Kaggle과 같은 사이트에서 찾아내어 내가 선택한 데이터가 ML의 어떤 학습에 어울리고 적용할 수 있고 심지어

더 나아가서 딥러닝에도 적용될 수 있을까 하는 것에 대해 고찰해보는 숙제를 해오기로 하였다. 그래서 난

데이터f 팀 프로젝트로 ML 팀과 스팸메일 팀으로 나누어서 프로젝트를 시작했다.

 

나는 ML팀에 속하게 되었다. 구체적으로 ML팀에서 하기로 한 프로젝트는 자신이 좋아하고 선호하는 데이터를

Kaggle과 같은 사이트에서 찾아내어 내가 선택한 데이터가 ML의 어떤 학습에 어울리고 적용할 수 있고 심지어

더 나아가서 딥러닝에도 적용될 수 있을까 하는 것에 대해 고찰해보는 숙제를 해오기로 하였다. 그래서 난

데이터를 구해보았는데 

1) 가장 인구가 많은 도시들의 슈퍼마켓에 대한 판매정보 데이터( 3달간 3개의 지점 슈퍼마켓에서 기록된 판매)

 

 

해당 데이터에서 칼럼은 다음과 같이 제공되었다.

sales 데이터의 columns

Column 설명

-invoice_id : 간단하게 주문(구매) 번호라고 생각하면 된다

-Branch : 슈퍼마켓의 지점 ( A,B,C 총 3개의 지점임)

-City : 슈커마켓이 위치한 도시다( 지점이 3개이므로 3개의 도시로 구성)

-Customer Type : 멤버십카드를 사용하는 손님(Member) & 멤버십 카드를 사용하지 않는 손님(Normal)

-Gender : 손님의 성별

-Product Line : 제품 종류(전자 악세사리, 패션 악세사리, 음식과 음료, 건강과 뷰티제품, 홈과 라이프스타일제품, 스포츠와 여행용품)

-Unit price : 제품 가격(단위- $=달러)

-Quantity : 손님들이 구매한 제품의 양

-Tax : 손님들이 구매한 제품가격에서 5% 세금 요금

-Total : 세금+제품 합한 총 가격

-Date : 구매 날짜( 2019년 1월 ~ 2019년 3월까지 기록)

-Time : 구매 시간( 아침 10시부터 저녁 9시)

-Payment : 고객들의 지불 수단 ( 현금, 신용카드, 전자월렛)

-COGS : 매출원가

-Gross margin precentage : 매출총이익 퍼센트

-Gross income : 총수입(세금 공제x)

-Rating : 고객들의 전반적인 만족 평가( 0~10 단계로 숫자가 높을수록 만족)

 

이러한 데이터를 기준으로 해서 우선 개인적인 견해로서는 ML에서 지도학습으로 2020년 1월~ 3월(내년)의 Branch별 총수입(Gross income)을 예측해볼 수 있을 것 같다. 우선적으로 Labled 되어진 데이터로서 Branch 지점이 A,B,C로 나누어져 있고 이 레이블에 맞춰서 해당하는 Gross income에 대한 데이터도 이미 우리가 알고 있다. 따라서 이렇게 labeled된 데이터로 내년의 똑같은 1월3월 기간의 총수입을 예측할 수 있지 않을까? 이 때 우리는 지도학습중에서 분류보다는

숫자의 연속성 값이라는 특징으로 인해 회귀(Regression)을 써야 할 것이다! ( ML의 supervised 학습 적용 여부 )

 

다음은 딥러닝 적용 케이스에 관한 나의 지극히 주관적인 의견이다. 사실 데이터 칼럼에대한 값들이 모두 숫자이다 보니

웬만하면 선형 데이터를 구성할 것이라고 예측했다... 그래서 비선형데이터를 나타내는 값에는 뭐가 좋은 것들이 있을까... 생각하다가 가격과 지불방법에 대한 생각을 해보았다.. 단적인 예로, 우리가 지금 당장 슈퍼마켓에 가서 아이스크림을 하나 사먹을 때, 현금이 1000원이 있는데 950원짜리 아이스크림과 1000원짜리의 아이스크림 중 두개 중 어떤 것을 선호할까(물론, 여기서 두개 종류의 아이스크림 모두 똑같은 퀄리티의 똑같은 제품이다) 난 개인적으로는 50원이라는 잔돈을 남기기 싫어 웬만하면 1000원짜리 아이스크림을 선택할 것같다..(나의 개인적인 경제적관념이 지배하는 의견이긴하다..) 하지만 요즘 시대에 50원 하나가 땅에 떨어져 있어서 줍는 사람이 얼마 없듯이... 동전 잔돈을 남기기 싫어 50원 정도의 경제적 가치를 그냥 버리는 셈치고 1000원짜리 제품을 구매하는 결정을 내리는 사람이 얼마나 될지에 대한 궁금증에서 출발한 것 같다. 

따라서 내가 하고 싶은 딥러닝 실험은 "제품의 가격이 딱 떨어질수록 지불방법이 현금으로 구매하는 경향이 짙을까?"에

대한 것이다.

 

또 하나 추가적으로 딥러닝을 실험해 보고 싶은 케이스는 "1월에서 3월별 어느 제품을 많이 소비할까?" 이다. 구매 측정 시기가 19년 1월~19년 3월을 감안해보았을 때, 개인적인 예측으로는 1월에서 2월에는 겨울철 스포츠가 많이 유행 할 것이기에 스포츠와 여행용품이 많이 구매될 것으로 예측되며 3월에는 곧 날씨가 따뜻해질 것을 대비해 패션 악세사리가 좀더 매출이 높을 것으로 예상된다. 따라서 이러한 예측이 딥러닝으로 실현될 수 있을지에 대한 실험을 해보고 싶다.

 

사실 딥러닝에도 여러가지 구체적인 모델이 존재하지만 아직까지는 이러한 데이터가 딥러닝의 어떤 모델로 운용될지 알아가기까지는 사전지식이 많이 부족한 상태이다. 그리고 이를 극복하기 위해서는 앞으로 블로그에도 ML/딥러닝 관련 지식을 많이 쌓아두고 자주 볼 예정이다. 인간은 망각의 동물이니..ㅜㅜ 어찌됬든 선택한 데이터를 대상으로 어떤 모델이 적용될 수 있는지에 대해서 간단히 생각해보고 적어보았다. 다음주에 조원들에게 내가 생각한 아이디어를 제안했을 때 당황스러운 얼굴만 안했으면 좋겠다....으앆

 

반응형