[6/26- 6/30, 2주차 학습일지✨]
‘Skill’에 매몰되지 않고 문제를 해결하고 현재를 개선시킬 수 있는 ‘인사이트’를 도출하는 것이 중요하다
1주차에 비해서 부트캠프의 운영/학습 방식에 대하여 조금씩 익숙해지고 있습니다!
이번주는 온라인 강의 수강 1일, 실시간 강의 4일로 구성되었으며 29일인 오늘까지 기초통계와 엑셀실무활용에 대한 내용을 학습했어요
기초통계는 확률/통계 기초 + 가설 검정(p-value) 등과 관련된 내용을 다루었고, 엑셀은 실제 데이터 분석에서 전처리 시 엑셀을 어떻게 활용할 수 있을지에 대한 내용을 다루었습니다!
제가 새롭게 배운 내용을 중심으로 학습일지를 작성해보도록 할게요
📌엑셀로 시작하는 데이터분석
1) 탐색적 데이터분석(EDA)
실무에서 EDA와 데이터 전처리는 함께 진행하게 됩니다. EDA를 통해 데이터 분포를 파악하고, 전처리 근거를 명확하게 하여 처리를 진행하는 방식입니다.
EDA로 데이터의 분포(이상치, 결측치)를 파악하고 데이터분석에 필요한 전처리를 수행하자
EDA를 잘 수행해야 전반적인 데이터분석 또한 잘 수행할 수 있다!
엑셀에서는 '데이터 분석도구'를 추가하여 기술통계 등의 통계적 데이터 분석을 진행할 수 있습니다.
혹은 산점도, 박스플랏을 그려서 전체적인 데이터의 분포를 확인하고 분위수를 활용해 이상치를 파악할 수 있습니다.
2) 데이터 전처리
Garbage in, garbage out
데이터의 질에 따라 데이터 분석의 결과도 달라질 수 있습니다. 데이터를 원하는 형태에 맞게 가공하고 분석 결과의 설득력을 높일 수 있는 전처리 역량을 길러야 합니다.
보통 전체 데이터 분석 과정 중에서 전처리는 60-80%를 차지한다고들 말합니다.
👀 함수를 활용한 전처리
- SUM, AVERGAE
- IF 중첩 - 조건에 따른 데이터 분류
- COUNT, COUNTA, COUNTBLANK - 결측치 파악 시 사용
- COUNTIF, COUNTIFS - countifs 사용을 생활화하자
한가지 더 궁금한게 있는데요! 다른 칼럼에 해당하는 조건을 or로 묶으려면 어떻게 하나요??(예를들어 {결혼여부 YES}or{직업 marketing})
// 다른 방법
=COUNTIFS($D:$D,"Yes")+COUNTIFS($F:$F,"Marketing")-COUNTIFS($D:$D,"Yes",$F:$F,"Marketing")
countifs는 여러개의 조건을 동시에 만족하는 것(and)으로 이해했는데 혹시 여러개의 조건을 or로 세는 함수도 있나요?
=SUM(COUNTIFS($F:$F,{"Marketing","Artist"}))
결측치가 있는 행이나 열을 일괄적으로 삭제하는 방법
방법 1) 필터 → ‘필드값 없음’ 선택해서 빈 셀만 확인 → alt 5 로 삭제하면 오래 걸림 (비추)
방법 2) 빈칸이 있는 열을 정렬 → 빈 애들이 가장 밑에 나옴 → 한 번에 선택해서 삭제하기 (추천!)
- VLOOKUP으로 데이터 불러오기: MATCH, INDEX 적절히 활용하여 자동화 but 실무에서는 대부분 VLOOKUP으로 해결됨
- SUMIF, SUMIFS로 조건에 맞는 합계 구하기
- 텍스트 처리함수: LEFT, RIGHT, MID, FIND
엑셀의 다음 기능을 활용해서 전처리할 수도 있어요.
- 필터: 숫자 필터, 텍스트 필터, 색 기준 필터도 활용 가능 / AND, OR 활용하여 여러 조건 적용 가능
- 데이터 유효성 검사: 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능
📌통계적 데이터분석
1) 기초통계상식 (p-value)
통계학은 표본의 특성을 파악하고 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 배우는 학문
** 목적: 자료에 근거한 합리적인 의사결정
통계학을 크게 기술 통계학과 추론 통계학으로 분류합니다.
가설검정에서 귀무가설의 기각 기준으로 판단되는 p-value(유의확률)에 대해 살펴봅시다.
- 유의확률 - 귀무가설(H0)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률, 신뢰구간이 95% 일 때(가설을 틀릴 확률이 5% 미만이어야 대립 가설이 인정됨)
따라서 보통 유의확률을 5%로 잡지만, 신뢰구간을 어떻게 설정하느냐에 따라 유의확률의 값이 달라질 수 있다는 것입니다.
즉, 보통 유의확률은 0.05(5%)를 기준으로 하지만 상황에 따라 0.01(1%) 등으로 다르게 설정할 수 있습니다. p-value가 내가 설정한 기준값보다 작아 대립가설을 선택하게 되었을 때, 상황에 따라 유리할 수도 그렇지 않을수도 있습니다. 이는 내가 귀무가설과 대립가설을 어떻게 설정했느냐에 따라 달라집니다.
2) 상관분석
강한 인과관계 -> 강한 상관관계, but 강한 상관관계가 강한 인과관계를 보장하지 X
강한 상관관계가 강한 인과관계를 보장하지 않습니다 . 하지만 높은 상관계수를 가진 변수 순으로 인과관계를 파악한다면, 좀 더 효율적으로 분석을 진행할 수 있습니다.
- 보통 절댓값이 >0.7이면 강한 상관관계라고 판단함 (-1~ 1까지의 값을 가짐)
- 만일 모든 상관계수가 높은 편이라면, 조건부 서식의 최솟값을 조정하여 색이 좀 더 잘 보이게 조정하자
3) t-test
두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정합니다.
- 다음의 과정을 진행
- 변수 선택 -> F검정 -> t-test -> 결과해석
F검정은 두 집단의 등분산성을 검정합니다. 그 결과에 따라 적합한 t-test를 선정합니다.
두 집단의 등분산성을 검정 (p-value > 0.05면 두 집단의 분산은 같고, 0.05보다 작으면 두 집단의 분산은 다르다) | |
H0(귀무가설) | 일반적으로 인정되는 사실, 두 집단의 분산은 같다 |
H1(대립 가설) | 우리가 인정하고 싶은 가설, 두 집단의 분산은 다르다 |
t-test는 두 집단의 평균이 유의미한 차이가 있는지 검정합니다.
한 집단의 전후, 혹은 전혀 다른 두 집단을 비교할 때 활용하기도 합니다.
두 집단의 평균을 검정 (p-value > 0.05면 두 집단의 평균은 같고, 0.05보다 작으면 두 집단의 평균은 다르다) | |
H0(귀무가설) | 일반적으로 인정되는 사실, 두 집단의 평균은 같다 |
H1(대립 가설) | 우리가 인정하고 싶은 가설, 두 집단의 평균은 다르다 |
4) 회귀분석
변수 간 유의미한 관계가 있는지 파악하기 위해 활용합니다.
활용하는 독립변수의 갯수에 따라 단순선형회귀분석과 다중선형회귀분석으로 구분합니다.
선형이 아닌 다른 형태의 함수 식을 원한다면 비선형 회귀분석을 진행할 수 있습니다.
단순선형회귀는 결정계수, 다중선형회귀는 조정된 결정계수가 1에 가까울수록 해당 모델의 설명력이 높습니다.
- 산점도 + 추세선 추가하여 확인 (독립변수가 1개인 경우)
- 데이터 분석 > 회귀 분석 선택하여 진행 가능
📌 엑셀로 그래프/시각화 작성 시 꿀팁
1) 그래프 디자인
엑셀에서는 막대 그래프, 거품형 그래프, 폭포형 그래프 등을 그릴 수 있습니다.
읽을 사람이 궁금해하는 정보만을 포함해서 보기 좋게 디자인하는 것 또한 중요합니다.
2) 조건부 서식 활용하기
표를 활용할 때는 조건부 서식을 활용해서 원하는 값을 강조합니다.
또는 KPI 등을 표시할 때 아이콘으로 조건부 서식을 넣을 수 있습니다.
- 아이콘만 간단하게 넣고, 구체적인 데이터값은 이해관계자가 물어봤을 때 답하기
또는 수식을 넣어서 지정할 수도 있어요.
3) 엑셀 매너
마지막으로, 엑셀도 결국에는 '다른 사람에게 전달할 내용을 담은 자료'이기 때문에 읽는 사람을 배려하는 자세도 필요합니다. 엑셀을 한 층 더 보기 쉽게 하려면 어떤 디테일을 추가할 수 있을까요?
1. 마우스 커서는 항상 A1에
2. 필요 시 구분자 중심으로 틀 고정
3. Sheet 이름 반드시 변경, 읽는 사람이 어떤 내용인지 알 수 있게 하기
4. Sheet가 많은 경우 빈 Sheet로 구분해주기 (목차 표지와 같은 역할)
5. 사용자가 보기 좋은 비율 설정 (75%~ 100%)
2주차 소감
짧게 느껴지지 않았던 이번주, 압축된 내용을 후루룩 훑어본 것 같아요.
엑셀 강의해주시는 강사님이 기업 출강을 포함한 강의 경험이 많으셔서 그런지 전달력이 정말 좋으시더라고요.
저는 엑셀로 만드는 대시보드가 제일 궁금했는데 실시간 강의에서 다루지 않으셔서 조금 아쉬웠네요.
이 부분은 온라인 강의에서 찾아서 직접 실습해보겠습니다 ㅎㅎ
#국비지원 #데이터분석 #데이터분석부트캠프 #패스트캠퍼스 #패스트캠퍼스데이터분석부트캠프 #패스트캠퍼스부트캠프 #학습일지
'데이터 분석 > 부트캠프' 카테고리의 다른 글
[패스트캠퍼스 데이터분석 부트캠프] 7주차 학습일지 - SQL 기초 (0) | 2023.08.03 |
---|---|
[패스트캠퍼스 데이터분석 부트캠프] 7/10 현직자 강의 후기 (기자단) (0) | 2023.07.27 |
[패스트캠퍼스 데이터분석 부트캠프] OT 솔직 후기 (기자단) (1) | 2023.07.13 |
[패스트캠퍼스 데이터분석 부트캠프] 3주차 학습일지 - 케이스스터디 (스타벅스 서베이) (0) | 2023.07.06 |
[패스트캠퍼스 데이터분석 부트캠프] 1주차 학습일지 - 빅데이터 리터러시와 엑셀 (0) | 2023.06.23 |