강의노트/데이터 분석

[Coursera] 클라이언트가 가져온 데이터의 퀄리티가 좋지 않을 때는?

용이 (young) 2023. 5. 11. 16:57
Coursera의 Google Data Analytics Professional Certificate - Course 4의 챌린지 내용을 정리한 것입니다. 

Course 4에서는 다음의 내용을 중점적으로 다뤘습니다. 
1. Data Integrity 
2. 데이터 전처리하기 (using SQL, Spreadsheet) 
3. 데이터 전처리한 내용 리포팅하기 


 

🎈 시나리오: 클라이언트의 요청에 나는 어떻게 답변해야 하는가? 

 

나는 현재 데이터 분석가! 

상황: 새로운 클라이언트 Meer-Kitty Interior Design과의 미팅 

[ 클라이언트의 비즈니스 목표 ] 

1) 온라인 고객을 늘리기 

2) 온/오프라인 매장에서 판매할 고퀄리티의 실내 페인트 런칭하기 

 

 

클라이언트가 이 '실내 페인트'에 대한 고객 서베이 데이터를 갖고 온 상황, 

클라이언트가 회의 중에 추가로 이것저것 물어보는 상황입니다. 

 


문제 혹은 상황 1: 고객 서베이 데이터가 분석하기에 좋지 않음! 

- 고객 서베이 데이터에 답변 수가 너무 적음

- 중복 데이터도 너무 많음 

 

나의 답변 

Skewing Result가 나올 가능성이 있으므로, 추가 서베이를 진행하는 게 좋을 것 같아요.
새로운 서베이에 대해서는 새로 기한을 설정하고, 따로 논의해보는 게 좋을 것 같아요. 어떠신가요?

 

- 가장 먼저 이해관계자와 이 사항을 전달하고, 새로운 마감기한을 설정하고, 승인을 받아야 함 

 


문제 혹은 상황 2: 동영상 데이터를 분석해주세요! 

 

- 클라이언트는 웹사이트를 따로 운영하고 있는 상황 

- 각 상품마다 디테일을 설명하는 동영상이 첨부되어있는 형태 

-> 즉, 영상의 조회수가 높다 = 해당 상품에 대한 고객의 관심이 높다 

 

클라이언트가 말하길.. 

어떤 topic으로 영상을 제작하는 게 좋을지, 데이터를 분석해주실 수 있나요?
그런데 최근 3달 간의 데이터밖에 없어요

나의 답변 

더 오랜 기간 수집된 데이터가 필요합니다!

 

'데이터를 더 수집하고, 다음번에 다시 요청해주세요 (새로운 timeline 설정하기)'

'아니면, 다른 목표를 잡고 이 데이터로 분석할 수 있을 것 같아요. 목표를 새로 조정해봅시다.'

 


문제 혹은 상황 3: 고객 서베이 데이터에 super fan만 답변한 듯한 상황 

문제상황1과 이어짐.. 

- 고객 서베이 데이터를 살펴보니, 데이터가 전체 고객을 대표하고 있다고 보기 어려웠음 

- super fan에 해당하는 고객들만 서베이에 답변한 것 같다. 

 

나의 대처 

다음번에 고객 서베이를 진행할 때는, 고객을 랜덤으로 선택해서 진행해보세요!
또는 답변을 받는 고객 수를 늘려보세요. 

 

- 서베이 표본이 skewed된 경우에는, random samping을 하여 skewness를 줄일 수 있음 

- 혹은 sample size를 늘리는 것도 방법임