Logistic Regression Practice
Practice 1
-
Codes: notebook 1
-
Dataset: social_network_ads.csv
소셜 네트워크 광고 클릭 데이터(Social Network Ads)를 활용하여 Logistic Regression 모델을 이용해 광고 클릭 여부를 예측하는 이진 분류 문제를 해결한다.
Dataset Columns Description
| Column Name | Type | Description |
|---|---|---|
| User ID | Integer | Unique identifier for each user. Not useful for modeling and should be removed. |
| Gender | Category | User gender (Male/Female). Needs encoding before model training. |
| Age | Integer | User age in years. |
| EstimatedSalary | Integer | User’s estimated annual salary. |
| Purchased | Binary (0/1) | Target variable. Indicates whether the user purchased the product after viewing the ad. (0 = No, 1 = Yes) |
Example Data Preview
| User ID | Gender | Age | EstimatedSalary | Purchased |
|---|---|---|---|---|
| 15624510 | Male | 19 | 19000 | 0 |
| 15810944 | Male | 35 | 20000 | 0 |
| 15668575 | Female | 26 | 43000 | 1 |
Target Variable (Label)
-
Purchased
-
0→ User did not purchase / click ad -
1→ User did purchase / click ad
-
-
This is a binary classification problem.
Practice 2
Diabetes
-
Codes: notebook 2
-
Dataset: diabetes.csv
Pima Indians Diabetes Dataset을 이용하여 여성 환자의 기초 건강 검사 지표를 기반으로 당뇨병 여부(0/1)를 예측한다.
Dataset Columns Description
| Column Name | Type | Description |
|---|---|---|
| Pregnancies | Integer | 임신 횟수 |
| Glucose | Integer | 경구 포도당 내성 검사 후 혈당 수치 |
| BloodPressure | Integer | 이완기 혈압(mm Hg) |
| SkinThickness | Integer | 삼두근 피부 두께(mm) |
| Insulin | Integer | 혈청 인슐린 수치(mu U/ml) |
| BMI | Float | 체질량 지수 (weight/height²) |
| DiabetesPedigreeFunction | Float | 가족력 기반 당뇨병 발병 지수 |
| Age | Integer | 나이 |
| Outcome | Binary (0/1) | 당뇨병 여부 (타깃 변수) |
Target Variable (Label, \(Y\))
-
Outcome-
0 → 정상
-
1 → 당뇨병
-
-
Logistic Regression으로 예측할 이진 분류 타깃
Useful Datasets
Dataset Recommendations for Logistic Regression
Very Useful for Personal Practice
- Useful Datasets: click me