Telecom Customer Churn Analysis
통신 고객 7,043명의 데이터를 분석하고 설명 가능한 분류모형을 활용해 이탈 위험군과 고객 유지 전략을 제안한 프로젝트입니다.
기간 · 2025년 여름방학
역할 · 개인 프로젝트 · KW-Corporation 교내 가상기업 프로그램
01 · 비즈니스·연구 질문
무엇을 확인하려 했는가
어떤 고객이 이탈할 가능성이 높은지, 위험을 높이는 요인은 무엇인지, 고객군별로 어떤 대응을 우선해야 하는지 분석할 수 있을까?
02 · 근거와 데이터
어떤 자료를 사용했는가
03 · 분석 과정
어떻게 분석하고 구현했는가
- 01
분석 데이터 정리
TotalCharges의 공란을 처리하고 범주형 변수를 인코딩해 학습과 평가에 사용할 데이터를 구성했습니다.
- 02
의미 있는 고객군 탐색
계약 유형, 이용 기간, 월 요금, 결제 방식, 부가서비스 이용 여부에 따른 이탈 패턴을 비교했습니다.
- 03
모형 비교와 해석
7개 분류모형을 비교하고 보고된 ROC-AUC가 가장 높았던 Gradient Boosting을 최종 모형으로 선택한 뒤, SHAP과 dependence 분석으로 주요 요인을 해석했습니다.
- 04
분석을 실행안으로 연결
위험 요인을 계약 전환, 초기 고객 관리, 기술지원 서비스 등 구체적인 고객 유지 아이디어와 연결했습니다.
04 · 해석
무엇을 알 수 있었는가
월 단위 계약은 가장 뚜렷한 이탈 위험 신호로 나타났습니다.
이용 기간이 짧고 월 요금이 높을수록 이탈 위험이 커지는 경향을 확인했습니다.
보안·기술지원 관련 일부 서비스의 미이용도 추가적인 위험 신호로 나타났습니다.
Gradient Boosting의 보고된 ROC-AUC는 약 0.842이며, 정확한 수치는 재현 가능한 최종 지표표로 다시 확인해야 합니다.
05 · 실무적 시사점
어떤 판단에 활용할 수 있는가
단순히 이탈 여부를 예측하는 데서 그치지 않고, 어떤 고객군에 어떤 대응을 우선할지 정리했습니다. 이탈률 5.0%p 감소는 분석을 바탕으로 제안한 목표이며, 실제 달성 성과가 아닙니다.
06 · 추가 검증
한계와 다음 과제
- •공개 데이터에는 캠페인 노출, 민원 이력, 개입 비용, 실제 고객 유지 결과가 포함되어 있지 않습니다.
- •정확한 성능 수치를 공개하기 전 최종 파이프라인, 하이퍼파라미터, random seed와 지표표를 재현해야 합니다.
- •제안한 전략의 효과는 명확한 유지 KPI와 실험을 통해 검증해야 합니다.
07 · 시각적 근거
확인된 근거와 해석 범위
계약 유형별 이탈률
원자료 확인원자료에서 직접 계산한 기술통계입니다. 월 단위 계약과 이탈의 연관성을 보여주지만, 특정 유지 전략이 이탈률을 낮췄다는 인과적 성과를 뜻하지 않습니다.
근거 · WA_Fn-UseC_-Telco-Customer-Churn.xlsx · 7,043 rows
이용 기간 구간별 이탈률
원자료 확인원자료의 tenure를 0–12, 13–24, 25–48, 49–72개월로 구분해 계산했습니다. 가입 초기의 높은 이탈 비중을 보여주지만, 고객별 원인이나 제안 전략의 실제 효과를 증명하지는 않습니다.
근거 · WA_Fn-UseC_-Telco-Customer-Churn.xlsx · bins computed from tenure
모형 성능·SHAP 근거
추가 검증 필요지표표 추가 예정
최종 파이프라인 재실행 후 ROC-AUC·precision·recall·F1 표를 추가합니다.
SHAP export 추가 예정
최종 Gradient Boosting 모형과 일치하는 SHAP 결과를 확인한 뒤 추가합니다.
기존 보고서에는 ROC와 SHAP 이미지가 있지만, 최종 모형·분할·전처리 파이프라인을 한 번에 재현한 export가 아닙니다. 따라서 약 0.842의 ROC-AUC와 설명 결과는 텍스트상 보고값으로만 유지하며 시각 자료로 확정하지 않습니다.