Logistic Regression Practice

Practice 1

소셜 네트워크 광고 클릭 데이터(Social Network Ads)를 활용하여 Logistic Regression 모델을 이용해 광고 클릭 여부를 예측하는 이진 분류 문제를 해결한다.

Dataset Columns Description

Column Name Type Description
User ID Integer Unique identifier for each user. Not useful for modeling and should be removed.
Gender Category User gender (Male/Female). Needs encoding before model training.
Age Integer User age in years.
EstimatedSalary Integer User’s estimated annual salary.
Purchased Binary (0/1) Target variable. Indicates whether the user purchased the product after viewing the ad. (0 = No, 1 = Yes)

Example Data Preview

User ID Gender Age EstimatedSalary Purchased
15624510 Male 19 19000 0
15810944 Male 35 20000 0
15668575 Female 26 43000 1

Target Variable (Label)

  • Purchased

    • 0 → User did not purchase / click ad

    • 1 → User did purchase / click ad

  • This is a binary classification problem.

Practice 2

Diabetes

Pima Indians Diabetes Dataset을 이용하여 여성 환자의 기초 건강 검사 지표를 기반으로 당뇨병 여부(0/1)를 예측한다.

Dataset Columns Description

Column Name Type Description
Pregnancies Integer 임신 횟수
Glucose Integer 경구 포도당 내성 검사 후 혈당 수치
BloodPressure Integer 이완기 혈압(mm Hg)
SkinThickness Integer 삼두근 피부 두께(mm)
Insulin Integer 혈청 인슐린 수치(mu U/ml)
BMI Float 체질량 지수 (weight/height²)
DiabetesPedigreeFunction Float 가족력 기반 당뇨병 발병 지수
Age Integer 나이
Outcome Binary (0/1) 당뇨병 여부 (타깃 변수)

Target Variable (Label, \(Y\))

  • Outcome

    • 0 → 정상

    • 1 → 당뇨병

  • Logistic Regression으로 예측할 이진 분류 타깃

Useful Datasets

Dataset Recommendations for Logistic Regression

Very Useful for Personal Practice


⬆️목차이동