본 게시물은 PAP Community에 게시된 김민겸 님의 글을 정리한 포스팅입니다.
이 글의 작성자 분은 검색에 기반을 두는 광고 PM입니다. 서비스 특성 상 봐야 하는 키워드가 10만개에 달할 정도로 많아서 효율적으로 일하는 방법을 고민하다가 크게 2가지 그래프를 그려보는 방식을 채택하게 되었다고 설명하십니다.
EDA의 목적은? 내가 작업할 대상과 데이터의 분포를 파악하는 것
1) 상자수염플롯
- 주요 통계량을 한번에 보여줌
- 하나의 그림으로 여러 가지 이야기를 할 수 있다
- 아웃라이어의 분포와 중위수를 보고 평균을 대푯값으로 설정해야 하는지 여부에 대하여 결정한다거나
2) 파레토 플롯
- 히스토그램의 상위버전 - 정해진 개수의 구간을 만들거나 적당한 수준의 구간을 자동으로 설정
- 관측값이 많은 구간 -> 적은 구간 순으로 자동 내림차순
- 중요한 구간이 어디인지 빠르게 파악할 수 있다
참고) https://hippochart.tistory.com/161
시각화에 대한 인사이트를 얻고자 pap community를 기웃거리다가 발견한 글입니다. 저도 eda를 진행할 때의 목적에 대하여 상기시키면서 시각화 프로젝트를 진행해봐야겠군요.
'데이터 분석 > 메모' 카테고리의 다른 글
[아티클] 지표와 분석은 어떻게 다른가요? (0) | 2023.07.01 |
---|