안녕하세요!
탐색적 데이터 분석(EDA)에 대해 공부한 내용입니다.
1. EDA란 무엇인가?
데이터셋을 분석 및 조사하여 주요 특징을 요약하는 과정.
데이터가 어떤 자료로 구성되어 있고, 분포는 어떠한지 파악하는 과정.
2. EDA의 목적
어떤 가정을 하기 전에 데이터를 살펴보기 위함.
이를 통해,
1) 데이터 오류 식별
2) 데이터 패턴 파악
3) 이상치 탐지
4) 변수 간의 관계 파악
3. EDA의 유형
그래프 표현 여부와 변수의 개수에 따라 구분.
- 그래프는 데이터의 개략적인 형태를 파악.
- 비그래프는 정확한 수치로 데이터를 파악.
- 여러 변수를 동시에 확인하기 전에 개별 데이터를 먼저 파악.
# 정형 데이터의 요소
1) 범주형(categorical): 가능한 범주 안의 값만을 취할 수 있는 데이터.
- 명목형(nominal): 성별, 혈액형 등 단순히 분류된 자료. EX) 성별, 혈액형
- 순서형(ordinal): 값들 사이에 분명한 순위가 있는 범주형 데이터. EX) 병의 단계, 만족도, 성적표
2) 수치형(numerical): 이산형과 연속형으로 이루어진 데이터.
- 이산(discrete): 횟수와 같은 정수 값만 취할 수 있는 데이터. EX) 불량품 개수, 사고 건수
- 연속형(continuous): 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터. EX) 시간, 몸무게
3) 이진(binary): 두 개의 값(0/1 혹은 참/거짓)만을 갖는 범주형 데이터. EX) 타이타닉 생존, 불량품 예측
* 비정형 데이터는 일정한 형태가 정해지지 않은 텍스트, 음악, 소리, 사진 등을 의미.
1) 일변량 비시각화
데이터가 하나의 변수로 구성되며, 원인이나 관계를 다루지 않음.
기본 목적은 데이터를 기술하고, 패턴을 찾는 것.
- 범주형 데이터의 빈도를 나타내는 빈도표.
- 수치형 데이터의 분포를 나타내는 Summary statistics.
* Summary statistics(요약 통계)
- 평균, 표준오차, 중앙값, 최빈값, 표준편차, 분산, 첨도, 왜도, 범위, 최소값, 최대값, 합 등을 나타냄
2) 일변량 시각화
일변량 시각화는 데이터의 전체 모습을 볼 수 있으며, 일반적인 유형은
- 각 막대가 값 범위에 대한 케이스의 비율 또는 빈도를 나타내는 막대 도표인 histogram.
- 최소, 첫 번째 사분위수, 중앙값, 세 번째 사분위수 및 최대값에 대해 묘사하는 box plot.
3) 다변량 비시각화
다변량 비시각화는 둘 이상의 변수로
일반적으로 교차표 또는 통계를 통해 변수 간의 관계를 나타냄.
4) 다변량 시각화
다변량 시각화는 둘 이상의 변수 간 관계를 나타내며, 일반적인 유형은
- 한 변수가 다른 변수의 영향을 받는 정도를 표시하기 위한 Scatter plot.
- 값이 색상으로 표시되는 시각화 표현인 Heatmap.
일변량(Uni_variate) | 다변량(Multi-variate) | |
시각화(Graphic) | - Histogram - Box plot |
- Scatter plot - Heatmap |
비시각화(Non-graphic) | - Summary statistics(요약 통계) - Tabulation(빈도표) |
- Cross-tabulation(교차표) - Correlation(상관 분석) |
변수의 유형에 따른 시각화는 아래 사이트를 참고하시면 도움이 될 것 같습니다.
2022.04.27 - [배우기/유용한 창고] - 데이터 시각화할 때 참고하면 좋은 사이트_from Data to Viz
- 참고 자료
https://www.ibm.com/kr-ko/cloud/learn/exploratory-data-analysis
https://greenjun.github.io/data%20mining/EDA/
https://velog.io/@minye_ppp/EDA-Exploratory-Data-Analysis
https://jinho-study.tistory.com/137
'배우기 > 분석' 카테고리의 다른 글
AARRR 프레임 워크_그로스 해킹 알아가기_고객 흐름을 이해하고 서비스를 성장시키는 방법 (0) | 2022.08.03 |
---|---|
A/B 테스트 알아보기_성장을 위한 실험 (0) | 2022.07.01 |
애드혹(Ad hoc) 분석은 무엇일까_비즈니스 인텔리전스(BI) (0) | 2022.06.25 |
문제 정의_문제 해결에서 가장 중요한, 좋은 성과를 내기 위해 필요한 것 (0) | 2022.06.22 |
RFM 분석 알아보기_CRM 마케팅 (0) | 2022.06.16 |
댓글