[클론 프로젝트] 타이타닉 시각화/랜덤포레스트로 생존 여부 예측하기

데이터 분석/프로젝트

용이 (young) 2023. 6. 30. 19:13

본 게시물은 youhan lee 님의 유튜브 영상을 기반으로 클론코딩을 진행한 뒤 정리한 글입니다.
(유튜브 링크: https://youtu.be/_iqz7tFhox0)

제가 작성한 전체 코드는 깃허브에서 확인하실 수 있어요.

🙄 Titanic 탑승객의 생존 여부를 예측해봅시다

python 시각화 연습과 분석 프로세스를 익히기 위해 진행한 클론 프로젝트입니다.

titanic 데이터는 정말 유명하죠! 아마 데이터 시각화, 데이터 분석에 대한 강의나 이야기를 한 번이라도 들었다면 이 데이터는 아마 익숙할 것입니다.

저도 익숙하게 들어온 데이터셋이지만, 생각해보니 정작 A to Z까지 해봤던 적은 없더라고요. youhan lee 님의 강의 영상을 보고 따라한 뒤 내용을 정리해보았습니다.

** 다음의 과정은 ML 모델을 적용하기 위한 준비입니다. 어떤 방법론을 선택하느냐에 따라서 달라질 수 있음.

결측치 채우기 - age는 Name 기준 grouping 평균으로 채우기
- Name에서 성을 추출하여 그룹핑
- 성 추출하여 initial 컬럼 생성
적은 수의 결측치를 가진 경우는 최빈값으로 채우기 (Embarked)
age 등은 categorizing (함수로 apply 적용)
Fare은 skewness 확인하고 Scaling (skewness = 4.79 -> 0.44)

export_graphviz 활용해 트리 그려보기
but 랜덤포레스트는 ensemble 모델이라서 하나의 트리만을 임의로 골라서 그려봐야 함. 즉, 크게 의미는 없을 듯 하다 (하나만 그려본다면)

[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 최종 전처리 (0)	2023.05.10
[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 데이터 전처리 (0)	2023.04.22
[개인프로젝트] CLV(Customer Lifetime Value) 예측 - 목표 및 계획 (2)	2023.04.19

Everyday Log

데이터 분석, 비즈니스 분석에 대해 공부하고 있습니다

패스트캠퍼스, 알고리즘, LTV, 데이터시각화, 케이스인터뷰, 데이터분석부트캠프, 프로그래머스, 패스트캠퍼스데이터분석부트캠프, 패스트캠퍼스부트캠프, PYTHON, 데이터분석, 정렬, tableau, e-commerce, 프로젝트, 코딩테스트, EDA, Kaggle, MConsultingPrep, 시각화,

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`