본문 바로가기

기획

탐색적 데이터 분석(EDA) : 데이터 속 숨은 인사이트 찾기

 

 

탐색적 데이터 분석(EDA)이란?

탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터 수집 후 데이터를 분석하기 전, 그 속에 숨겨진 패턴을 발견하고 문제를 정의하며 분석 방향을 설정하는 과정이다. 데이터를 단순히 탐색하는 것이 아니라, 데이터를 "읽고", "깨끗하게 정리하며", "새로운 가설을 도출"하는 작업이라고 이해하면 쉽다. EDA의 목표는 데이터를 통해 이야기할 수 있는 내용을 파악하고, 분석의 기본 뼈대를 만들어주는 것이다.

 

 

 

 

 

EDA 실행 목적

1. 데이터의 특성과 구조 이해

  • 데이터의 형태와 분포 확인: 데이터셋의 변수(컬럼)와 관측값(행)을 확인. 변수가 어떤 유형(예: 수치형, 범주형, 시간형 등)으로 이루어져 있는지, 값들이 어떻게 분포되어 있는지 확인
  • 변수 간 관계 탐구: 변수가 독립적인지 아니면 상호 연관되어 있는지 확인. 상관관계, 분포, 트렌드 등을 분석하여 데이터를 설명하는 중요한 패턴을 식별

2. 데이터 품질 점검

결측값, 이상값, 중복값 등을 찾아내어 삭제 혹은 수정

3. 분석 방향성 설정

  • 초기 가설 도출: 데이터를 통해 특정 패턴을 발견하거나, 분석 과정에서 검증할 가설을 설정
  • 적합한 분석 방법 선택: 데이터를 탐색하면서 어떤 분석 기법(예: 회귀, 군집 분석, 분류)을 사용할지 결정

4. 데이터 시각화를 통해 직관적인 통찰 파악

EDA 과정에서 생성되는 시각화(히스토그램, 산점도, 히트맵 등)는 데이터를 직관적으로 이해하고 주요 패턴이나 문제점을 보여줌.

 

 

 

 

 

EDA 실행 프로세스

1. 데이터 로딩 및 초기 확인

데이터셋을 로드하고 기본적인 정보와 구조, 변수 특성에 대해 이해한다.

  • 데이터를 로드하고 상위 몇 줄 확인 (head() 함수 등).
  • 데이터 크기(행과 열의 수) 확인.
  • 변수명과 데이터 타입 확인 (info() 함수 사용).
  • 데이터 요약 통계(describe() 함수)로 초기 특징 파악.

 

2. 데이터 품질 점검

데이터의 품질 문제를 파악하고, 오류를 수정하거나 적절히 처리한다. 

  • 결측값 탐지 : 비율 확인 > 삭제, 평균/중앙값 대체, 예측 모델 기반 대체 등으로 처리
  • 이상값 탐지 : Boxplot, IQR(Interquartile Range) 등으로 이상값 확인 > Z-score나 MAD(Median Absolute Deviation)를 활용한 정량적 평가
  • 중복값 탐지 : 동일한 행이 반복되는 경우 제거 여부 결정
  • 데이터 타입 오류 수정 : 변수 타입이 올바른지 확인(예: 날짜형 데이터가 문자열로 저장된 경우 수정)

 

3. 데이터 요약 및 기초 통계 분석

이터를 요약하고 변수 간의 초기 관계를 파악한다. > 중심 경향성과 분포에 대한 명확한 이해

  • 수치형 변수 기초 통계량 계산(평균, 중앙값, 분산, 표준편차, 최소/최대값 등).
  • 수치형 변수의 분포 확인(예: 히스토그램, 커널 밀도 추정(KDE)).
  • 범주형 변수의 빈도수 확인 및 시각화(파이 차트, 바 차트).
  • 변수 간 상관계수 계산(Pearson, Spearman 등)

 

4. 데이터 시각화

데이터를 시각화하여 데이터의 주요 패턴과 이상점을 발견하는 등 직관적인 통찰을 얻는다.

  • 단변수 분석(Univariate Analysis): 히스토그램, 박스플롯 등을 사용하여 변수 하나의 분포를 시각화
  • 이변수 분석(Bivariate Analysis): 산점도(Scatter Plot)로 두 변수 간의 관계를 시각화하거나,  상자도표(Boxplot)로 범주형 변수와 수치형 변수 간의 관계를 탐색.
  • 다변수 분석(Multivariate Analysis): 페어플롯(Pairplot)으로 여러 변수 간 관계를 한눈에 파악하거나, 히트맵(Heatmap)으로 변수 간 상관관계를 시각화.

 

5. 가설 도출 및 문제 정의

탐색 결과를 바탕으로 가설을 정의하고 분석 방향을 설정한다.

  • 데이터를 기반으로 분석에 대한 초기 가설 설정
  • 해결해야 할 문제 정의 (예: "결측값 처리 후 데이터 분포를 정규화해야 한다.")

 

6. 데이터 변환 및 전처리

데이터를 분석 및 모델링에 적합한 형태로 변환한다.

  • 스케일링(Scaling): 수치형 변수의 범위를 조정(표준화(Standardization), 정규화(Normalization))
  • 필요 없는 변수 제거: 분석에 영향을 미치지 않거나 상관성이 낮은 변수를 제거.
  • 변수 변환: 범주형 데이터를 수치형 데이터로 변환하거나, 로그 변환 등을 통해 데이터 분포를 조정
  • 범주형 데이터 처리: 원-핫 인코딩(One-Hot Encoding 각 범주를 개별 열로 변환), 레이블 인코딩(Label Encoding-범주형 데이터를 숫자로 변환) 적용.
  • 파생 변수 생성: 새로운 변수 도출(예: 날짜 데이터를 기준으로 요일, 계절 등 추가)
  • 샘플링 전략 수립: 분석에 적합한 샘플 크기를 결정 

 

7. 최종 데이터 준비 및 보고

분석/모델링에 사용할 데이터를 준비하고, EDA 결과를 보고서로 작성한다.

  • 데이터셋 저장(정제 및 변환된 최종 데이터).
  • 주요 발견사항 요약(결측값 비율, 이상값 개수, 변수 간 관계 등).
  • 시각화 결과 포함(히스토그램, 산점도, 상관계수 매트릭스 등).

 

 

 

 

EDA 기반 비즈니스 성장에 중요한 가설을 세우기 위해서는?

EDA를 통해 가설을 잘 세우려면 데이터를 분석하는 과정에서 비즈니스 목표와 직접 연결되는 관점을 유지해야 한다. "이 패턴이 왜 발생했는가?", "이 발견이 비즈니스에 어떤 의미를 가지는가?"라는 질문을 지속적으로 던지면서, 데이터 기반으로 실행 가능한 가설을 수립하는 것이 중요하다. 데이터를 이해하고 비즈니스 전략과 연결하기 위해 다음과 같은 질문과 관점들을 고려해보자.

 

1. 비즈니스 목표와 관련된 질문

  • 현재 비즈니스 목표는 무엇인가?  (고객 이탈 감소, 매출 증대, 고객 충성도 향상 등)
  • 어떤 데이터가 목표 달성에 직접적인 영향을 미칠 수 있는가? (구매 금액, 고객 연령, 고객 세그먼트별 구매 패턴 등)

 

2, 고객 행동 분석 관점

  • 고객의 구매 행동은 어떻게 분포되어 있는가? (가장 多 구매되고 있는 제품 카테고리, 구매 집중되는 요일/시간대 등)
  • 고객 세그먼트별로 구매 패턴이 어떻게 다른가?  (연령대, 성별, 소득 수준별 구매 금액 차이 등)

📝 고객 행동의 변화를 유도하기 위한 가설 설정 > "25~35세 고객은 할인 쿠폰에 긍정적으로 반응할 것이다."

 

3. 시장과 제품 관점 (제품의 성과와 시장에서의 위치 분석)

  • 어떤 제품이 매출을 주도하고 있는가? (특정 제품군의 판매량이 전체 매출에서 차지하는 비율 등)
  • 제품 판매에 영향을 미치는 요인은 무엇인가? (시즌성, 할인, 경쟁 제품과의 비교 등)

📝 고성장 제품군이나 성장 잠재력이 높은 제품군에 집중 > "Electronics 제품의 평균 구매 금액이 높으므로 이 제품군에 프로모션 강화가 필요하다."

 

4. 매출과 수익성 관점

  • 어떤 고객 세그먼트가 가장 높은 수익성을 가져오는가?
  • 구매 주기가 짧은 고객은 어떤 특성을 가지고 있는가? (고빈도 구매 고객과 저빈도 구매 고객의 비교 등)

📝  고객 생애 가치(Lifetime Value)를 기반으로 고수익 고객을 타겟팅 

 

5. 이상값과 비즈니스 리스크 관점 

  • 데이터에서 나타나는 이상값의 원인은 무엇인가? (극단적으로 높은 구매 금액은 실제 구매인가, 오류인가?)
  • 비정상적인 패턴이 특정 시점이나 이벤트와 관련이 있는가? (특정 기간 동안 구매가 급증/급감한 이유는?)

📝  비즈니스 리스크를 완화하기 위한 사전 조치 >  "연말 시즌에는 구매금액 이상치가 증가하므로 재고 관리가 필요하다."

 

6. 경쟁 환경과 비교 관점

  • 경쟁 제품과 비교했을 때, 우리 제품의 강점과 약점은 무엇인가? 
  • 경쟁사가 어떤 고객 세그먼트를 타겟팅하고 있는가?

📝  차별화 전략 수집 

 

7. 프로세스와 효율성 관점

  • 제품 배송 시간과 고객 만족도 간의 관계가 있나? (배송 시간이 길수록 구매 금액이 감소하는가?)
  • 프로모션이 매출 증대에 효과적인가? (할인율과 구매 전환율의 상관관계는?)

📝  프로세스 최적화를 위한 가설 설정 > "배송 시간이 2일 이내인 경우 고객 만족도가 증가할 것이다."

 

8. 가설 설정을 위한 종합 질문

  • 데이터를 통해 확인된 패턴은 무엇이고, 이를 비즈니스 성장에 어떻게 활용할 수 있는가?
  • 특정 패턴이 모든 고객 세그먼트에 동일하게 적용되는가?
  • EDA 결과와 기존 비즈니스 데이터/전략 간의 차이는 무엇인가?
  • 새로운 시장 기회나 전략적 공백이 발견되었는가?

 

 

 

 

 

EDA에서 도출된 통찰을 비즈니스 의사결정으로 연결하려면?

비즈니스 성장에 유용한 데이터 유형

1. 고객 데이터

고객의 행동과 특성을 이해하여 맞춤형 전략을 수립하여,  신규 고객 확보와 기존 고객 유지율 향상에 기여할 수 있다.

인구통계학적 데이터 고객 연령, 성별, 위치, 소득 등. 특정 연령대나 지역에서의 성장 기회 식별.
행동 데이터 웹사이트 클릭, 구매 이력, 장바구니 추가 등. 고 객 여정을 분석하여 전환율 최적화 가능.
충성도 데이터 구매 빈도, 반복 구매율, 평균 구매 주기 등. 충성도 높은 고객 세그먼트에 맞춤형 캠페인 제공.

 

2. 제품 및 서비스 데이터

제품 성과를 평가하고, 개선 또는 신규 제품 개발에 대한 인사이트를 제공한다.

판매 데이터 제품별 판매량, 매출, 재고 회전율.  상위 판매 제품과 저조한 제품 간 차이를 분석.
리뷰 및 피드백 데이터 고객 리뷰, 설문 조사, NPS(Net Promoter Score). 고객 만족도를 기반으로 제품 개선 우선순위 설정.

 

3. 시장 및 경쟁 데이터

외부 환경과 트렌드를 이해하여 경쟁 우위를 확보할 수 있다.

시장 트렌드 데이터 매출 성장률, 시장 점유율 변화. 특정 카테고리의 성장 가능성을 탐색.
경쟁사 데이터 경쟁사 가격, 프로모션, 고객 리뷰. 경쟁사의 강점과 약점을 분석하여 시장 차별화 전략 수립.

 

4. 재무 데이터

수익성과 비용 구조를 분석하여 효율성을 높인다.

수익 데이터 총 매출, 순이익, 수익률. 가장 수익성이 높은 고객 세그먼트나 제품 식별.
비용 데이터 마케팅 비용, 인건비, 운영 비용. 비용 대비 ROI(Return on Investment) 평가.

 

5. 시간 데이터

시간에 따른 변화와 추세를 이해하여 전략적 의사결정에 활용한다.

시계열 데이터 월별 매출, 일별 트래픽, 계절별 판매량. 프로모션 시점 선택, 계절성 분석.
고객 라이프사이클 데이터 고객 생애가치(CLTV), 이탈률, 가입 후 첫 구매 시점. 고객 유지 전략 수립.

 

 

필요한 추가 분석

1. 고객 세그먼트 분석

고객을 특정 속성(소득, 연령, 구매 패턴 등)에 따라 그룹화하여 맞춤형 전략을 수립한다.

군집 분석 (Clustering) 데이터를 K-means, DBSCAN과 같은 알고리즘으로 군집화하여 주요 고객 그룹을 식별.
(고소득군, 저소득군, 반복 구매자 등)
RFM 분석 고객을 Recency(최근 구매 시점), Frequency(구매 빈도), Monetary(구매 금액) 기준으로 세분화. (VIP 고객, 잠재 이탈 고객 등.)
고객 프로파일링 각 세그먼트의 인구통계적 특징(연령, 성별, 위치 등)을 분석해 마케팅 전략 수립.

 

2. 예측 모델링

데이터를 바탕으로 향후 행동(구매, 이탈, 전환 등)을 예측하여 선제적 조치를 취한다.

회귀 분석
(Regression Analysis)
종속 변수(구매 금액, 매출 등)와 독립 변수(소득, 연령 등) 간의 관계를 모델링.
(소득과 구매 금액 간의 선형 관계 확인 등)
분류 모델 (Classification) 고객 이탈 여부, 구매 전환 가능성 등을 예측. (고객이 다음 달에 구매할 확률 예측 등)
시계열 분석 매출, 트래픽 등 시간 데이터의 추세를 예측(ARIMA, Prophet).

 

3. 원인과 결과 탐구 (인과 분석)

특정 패턴이 단순한 상관관계인지, 실제로 인과관계가 있는지를 검증하여 효과적인 전략을 수립한다.

실험적 접근(A/B 테스트) 두 그룹에 다른 전략을 적용하여 효과를 비교. (프로모션 제공 그룹 vs 미제공 그룹의 매출 비교)
인과 추론
(Causal Inference)
도구변수법(IV), 성향점수 매칭(PSM) 등을 활용해 정책 효과를 정량화.
(마케팅 캠페인이 매출 증가에 미친 영향)

 

4. 비용-효과 분석

전략의 실행 가능성을 평가하고, 자원의 최적 분배를 결정한다.

ROI(투자수익률) 분석 도출된 통찰에 따라 제안된 조치의 비용과 기대 수익을 비교.
(VIP 고객 대상 캠페인의 예상 비용 대비 추가 매출 계산)
시뮬레이션 제안된 전략이 다양한 조건에서 어떻게 작동하는지 평가.
(Monte Carlo 시뮬레이션을 활용해 다양한 시나리오를 분석)

 

5. KPI 및 성과 예측

의사결정의 효과를 모니터링하고, 비즈니스 성과를 추적한다.

KPI 정의 및 측정 비즈니스 성과를 평가할 주요 지표(KPI)를 정의.
목표 추정 및 갭 분석 현재 데이터와 설정된 목표 간의 차이를 분석하여 구체적인 개선 방안 도출.

 

 

 

 

 

 

데이터 도메인에 대한 이해를 선행하자

EDA에서 도메인 지식은 단순히 데이터의 숫자를 넘어서 데이터의 맥락과 의미를 이해하는 데 필수적이다. 데이터는 그 자체로 완전하지 않다. 데이터 드리븐 의사결정을 하는 이들은 데이터가 어떤 상황에서, 어떤 목적을 위해 생성되었는지를 이해해야 한다. 그리고 EDA 결과를 비즈니스 문제 해결로 연결하는 과정에서, 도메인 지식은 데이터의 의미를 해석하고 비즈니스와 연결된 인사이트를 도출하는 데 필요하다.

 

다양한 도메인의 데이터셋(금융, 의료, 마케팅 등)을 다룰 때, 해당 도메인의 특성, 목표, 데이터의 유형에 따라 다른 EDA 접근법이 필요하다. 예를 들어, 금융에서는 사기 탐지나 리스크 관리를 위해 정확성과 이상값 탐지가 중요하고, 마케팅에서는 고객 세그먼트와 행동 분석, 소매에서는 제품 중심의 판매 데이터 분석이 핵심이 되는 식이다. 도메인 별로 중요도 변수들도 달라진다.

 

탐색적 데이터 분석(EDA)은 데이터를 단순히 통계적, 기술적으로 이해하는 것 이상을 요구하기에, 데이터를 보고 핵심 인사이트를 끌어올리기 위해 업계 보고서나 시증 트렌드 조사 등을 하며 배경 지식을 쌓는 노력도 필요하다!✨