데이터 분석/프로젝트 4

[클론 프로젝트] 타이타닉 시각화/랜덤포레스트로 생존 여부 예측하기

본 게시물은 youhan lee 님의 유튜브 영상을 기반으로 클론코딩을 진행한 뒤 정리한 글입니다. (유튜브 링크: https://youtu.be/_iqz7tFhox0) 제가 작성한 전체 코드는 깃허브에서 확인하실 수 있어요. 🙄 Titanic 탑승객의 생존 여부를 예측해봅시다 목적: titanic 탑승객의 정보를 바탕으로 생존 여부 예측하기 결과물: 랜덤포레스트로 예측 모델 구현 (정확도 87%), 가장 중요한 변수: Fare로 나타남 python 시각화 연습과 분석 프로세스를 익히기 위해 진행한 클론 프로젝트입니다. titanic 데이터는 정말 유명하죠! 아마 데이터 시각화, 데이터 분석에 대한 강의나 이야기를 한 번이라도 들었다면 이 데이터는 아마 익숙할 것입니다. 저도 익숙하게 들어온 데이터셋이지..

[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 최종 전처리

이번 포스팅에서는 저번 포스팅에 이어 해당 데이터를 전처리한 과정을 소개합니다. 사용한 데이터는 kaggle의 e-commerce 데이터입니다. * 전체 코드는 여기에서 확인하실 수 있습니다. 저번 포스팅에서, 컬럼명 변경, 결측치 처리 등 기본적인 전처리를 진행했습니다. 이어서 구매가 많은 지역을 보여주는 worldmap을 그려보고, 각 컬럼의 대략적인 통계 정보를 보기 위해 heatmap을 그려보았는데요. heatmap을 그려봄으로써 unit_price, quantity < 0인 경우가 있음을 발견했습니다. 이번 포스팅에서는 quantity < 0가 발생한 경우를 확인하여 처리한 과정에 대해서 적어보도록 하겠습니다. 📃 추가 확인 및 전처리 추후 CLV(Customer Lifetime Value)를 ..

[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 데이터 전처리

이번 포스팅에서는 해당 데이터를 전처리한 과정을 소개합니다. 사용한 데이터는 kaggle의 e-commerce 데이터입니다. * 전처리 전체 코드는 여기에서 확인하실 수 있습니다. 📃 데이터 전처리 내가 원하는 분석을 하기에 앞서 먼저 데이터를 가공해야 합니다. 이번 프로젝트의 목적이 "CLV 예측"이라는 점을 유념하면서, LTV 예측 결과가 편향되지 않도록 전처리를 하려고 합니다. 보통 전처리 과정에서 outlier 등을 확인하기 위해 boxplot을 그려보거나, 데이터의 전체적인 분포를 보기 위해 간단한 groupby나 그래프를 그리면서 제가 분석할 데이터와 좀 더 친숙해지는 것 같아요. 어떤 순서로 데이터를 전처리하는 게 좋을까요? 물론 데이터 by 데이터/ 사람 by 사람이겠지만, 저는 아래의 순..

[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 목표 및 계획

e-commerce 데이터를 이용한 인사이트 도출 연습 및 공부를 목적으로 진행한 프로젝트입니다. 본 포스팅에서는 프로젝트 1일차에 진행한, '프로젝트 목표 및 계획 수립'에 대한 내용을 담고 있습니다. 프로젝트 목표 고객이 다음에 얼마를 구매할지 예측할 수 있을까? LifeTime Value(LTV)는 현재 유저들의 미래 가치를 예측하여 중장기적인 성과를 측정하기 위한 지표입니다. "고객 생애 가치"라고도 불리는 LTV를 근거로 유저 유입 마케팅 예산을 적절히 책정하여 인앱 구매, 인앱 광고, 앱 구독과 같은 수입원의 흐름을 최적화하고 수익성을 유지할 수 있습니다. 데이터 분석가는 직접 지표를 정의하고 분석을 진행하기도 합니다. LTV는 중요하게 여겨지는 지표이고 저도 여러 번 들어본 적이 있는데, 직..