Case Studies

강의자료 다운로드: click me

학습 목표

개요

데이터사이언스와 산업 문제 해결
금융 도메인 사례(사기 탐지, 신용평가)
의료 도메인 사례(질병 예측, 의료 영상)
산업 도메인 사례(예지보전, 비전 기반 품질검사)
미니 캡스톤 (팀 프로젝트)

Introduction

데이터사이언스는 더 이상 특정 기술 기업만의 전문 분야가 아니다. 오늘날에는 금융, 의료, 제조, 유통, 공공 서비스 등 다양한 산업에서 핵심 경쟁력을 만들어내는 필수 역량으로 자리 잡고 있다.

데이터 기반 분석과 예측 모델은 기업의 운영 비용을 절감하고, 새로운 매출 창출 기회를 발굴하며, 나아가 의료·안전 분야에서는 사람의 생명을 보호하는 데까지 기여하고 있다.

이번 섹션에서는 데이터사이언스가 현업의 실제 문제를 어떻게 해결하고, 어떤 가치를 창출하는지를 살펴본다. 특히 금융, 의료, 산업(제조) 영역에서 널리 활용되고 있는 대표적인 사례들을 중심으로 학습한다.

단순히 “어떤 모델이 사용되었다”는 기술적 관점에만 머무르지 않는다. 현장에서의 문제 정의부터 데이터 수집, 모델링, 평가, 그리고 비즈니스 적용까지의 전 과정 전체 흐름을 따라가며 이해할 수 있도록 구성하였다.

모든 사례는 아래의 공통 분석 패턴을 기반으로 설명된다.

문제 정의 → 데이터 수집 → 모델링·분석 → 평가 → 비즈니스 적용

이 프레임워크는 실제 데이터사이언스 프로젝트에서 가장 일반적으로 활용되는 절차이며, 이를 통해 이론으로 배운 개념들이 현실 세계의 문제 해결 과정에서 어떻게 구현되는지를 자연스럽게 체감하게 될 것이다.

이번 학습의 목표는, 데이터사이언티스트의 관점으로 문제를 바라보고, 해결 전략을 세우는 사고방식을 경험해보는 데 있다.

Finance Case Studies

Credit Card Fraud Detection

신용카드 사기 거래는 매년 증가하고 있으며, 금융기관은 실시간 탐지를 통해 고객 피해와 금융 손실을 최소화해야 한다. 데이터 사이언스는 거래 데이터를 분석하여 정상 패턴과 비정상 패턴을 구분함으로써 사기 거래를 조기에 발견하는 데 중요한 역할을 한다. 이 사례에서는 이상 거래 탐지 기법과 분류 모델을 적용해 실제 금융 서비스 환경에서 활용되는 분석 과정을 학습한다.

문제 정의

신용카드 거래 내역 중 사기 거래를 실시간으로 탐지하여 피해를 최소화하는 것이 목표이다. 사기 거래는 전체 거래 대비 매우 적은 비율로 발생하는 불균형 데이터 문제를 가지고 있으므로, 일반적인 정확도(Accuracy)만으로는 모델 성능을 적절히 평가하기 어렵다.

데이터 예시

거래 로그 (결제 시간, 결제 방식, 거래 지역)

결제 금액 및 사용 패턴

디바이스 정보 (사용 기기, IP, 위치 변화)

사용자 프로필 및 과거 거래 이력

다양한 데이터는 정상적인 사용 패턴과 사기 거래 패턴의 차이를 학습하는 데 활용된다.

분석 기법

이상치 탐지 기법 Isolation Forest, Local Outlier Factor(LOF)를 활용하여 정상 패턴에서 벗어난 거래를 탐지한다.
분류 모델 기반 탐지 Logistic Regression, Random Forest, XGBoost와 같은 지도학습 모델을 사용하여 거래를 정상 또는 사기로 분류한다.
평가 지표 분석 Accuracy보다 Precision과 Recall의 균형이 중요하며, 특히 사기 거래를 놓치지 않는 Recall이 핵심이다. 다만, Recall만 높이고 Precision이 낮아지면 정상 거래 차단이 불필요하게 증가하기 때문에 두 지표 간의 적절한 균형 조정이 필요하다.
불균형 데이터에서는 Precision·Recall을 함께 보는 F1이 유용하지만, 사기 탐지처럼 Recall을 더 중시할 때는 \(\beta>1\)로 가중하는 \(F_{\beta}\)-score나 PR-AUC 등을 함께 검토한다.
- \(F_{\beta}\)-score: Precision과 Recall을 \(\beta\) 가중 조화평균으로 묶어, Recall 중요도를 반영한 단일 지표 \(\beta=1\)이면 F1과 같고, \(\beta>1\)이면 Recall을 더 강조하고 \(\beta<1\)이면 Precision을 더 강조한다.
- PR-AUC (Precision–Recall Curve): Precision-Recall 곡선 아래 면적; 클래스 불균형 상황에서 전 점수 구간의 분류 성능을 요약하며, AU-ROC(예측 순위 기반 TPR/FPR)보다 양성 클래스 품질에 민감하다.

기대 효과 및 분석 결과

적절한 모델 선택과 임계값 조정을 통해 사기 거래 탐지율을 높이면서 정상 거래 오탐률을 효과적으로 낮출 수 있는 전략을 수립할 수 있다.

Recall을 높여 사기 거래 탐지 능력을 향상시키되, Precision을 유지하여 정상 거래가 불필요하게 차단되는 상황을 최소화하는 것이 금융 서비스 품질 유지의 핵심이다.

Mini Project (1인 수행)

Kaggle의 Credit Card Fraud Detection 데이터셋 활용: 데이터셋 다운로드 (Kaggle)
(선택) 데이터 불균형 문제 해결 기법 적용
Logistic Regression, Random Forest, XGBoost 성능 비교
- Random Forest, XGBoost 추가 학습이 필요함
- Random Forest, XGBoost 적용은 선택 사항
F1 Score 및 AUC 기반 성능 평가
임계값 변경 시 Precision과 Recall 변화 시각화 분석

주의사항: 실제 금융권 모델 개발 시 고려해야 할 의사결정 요소들을 경험적으로 이해할 수 있다.

Credit Scoring

대출 심사 과정에서 금융기관은 고객의 신용도를 평가하여 대출 승인 여부를 결정한다. 데이터사이언스 기반의 신용평가 모델은 기존의 단순 점수 기반 방식보다 더 정확하고 일관성 있는 의사결정을 내릴 수 있도록 지원한다. 또한 모델이 내린 판단이 공정하며 설명 가능해야 하므로, 성능과 함께 해석력 역시 중요한 요소이다.