Spaces:

computerscience-person
/

CC229_diabetes-binary-dataset

Sleeping

App Files Files Community

computerscience-person commited on Mar 13, 2025

Commit

cdffe0b

1 Parent(s): 27db1e5

Add comparison to Decision Tree Classifier.

Browse files

Files changed (1) hide show

app.py +30 -41

app.py CHANGED Viewed

@@ -47,13 +47,14 @@ def _(pl):
 @app.cell
 def _(mo):
-    mo.md("""## Naive Bayes' Classifier""")
     return
 @app.cell
 def _(dataset_prior_conditions, mo, pl):
     from sklearn.naive_bayes import BernoulliNB
     from sklearn.model_selection import train_test_split
     from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
@@ -63,8 +64,12 @@ def _(dataset_prior_conditions, mo, pl):
     )
     bnb = BernoulliNB()
     y_pred_priors = bnb.fit(X_train_priors, y_train_priors).predict(X_test_priors)
-    mo.md(f"""
         Accuracy             : {accuracy_score(y_test_priors, y_pred_priors)}
         Confusion Matrix:
@@ -78,9 +83,25 @@ def _(dataset_prior_conditions, mo, pl):
     ```
         {classification_report(y_test_priors, y_pred_priors)}
     ```
-        """)
     return (
         BernoulliNB,
         X_priors_NB,
         X_test_priors,
         X_train_priors,
@@ -88,7 +109,9 @@ def _(dataset_prior_conditions, mo, pl):
         bnb,
         classification_report,
         confusion_matrix,
         train_test_split,
         y_pred_priors,
         y_priors_NB,
         y_test_priors,
@@ -97,43 +120,14 @@ def _(dataset_prior_conditions, mo, pl):
 @app.cell
-def _(X_test_priors, pl, y_pred_priors, y_test_priors):
-    import altair as alt
-    alt.data_transformers.enable("vegafusion")
-    # X_test_priors, y_pred_priors, y_test_priors
-    dataset_result_priors = pl.concat([X_test_priors, y_test_priors, pl.DataFrame({"Predicted Diabetes_binary": y_pred_priors})], how="horizontal")
-    dataset_result_priors1 = dataset_result_priors.select(
-        (pl.col("HighBP") * 8),
-        (pl.col("HighChol") * 4),
-        (pl.col("Stroke") * 2),
-        pl.exclude(["HighBP", "HighChol", "Stroke"])
-    )
-    dataset_result_priors1 = dataset_result_priors1.select(
-        pl.sum_horizontal(pl.col("HighBP", "HighChol", "Stroke", "HeartDiseaseorAttack")),
-        pl.col("Diabetes_binary", "Predicted Diabetes_binary")
-    )
-    dataset_result_priors2 = dataset_result_priors.select(
-        pl.exclude(["Diabetes_binary", "Predicted Diabetes_binary"]),
-        (pl.col("Diabetes_binary") * 2),
-        pl.col("Predicted Diabetes_binary")
-    )
-    dataset_result_priors2 = dataset_result_priors2.select(
-        pl.col("HighBP", "HighChol", "Stroke", "HeartDiseaseorAttack"),
-        pl.sum_horizontal(pl.col("Diabetes_binary", "Predicted Diabetes_binary"))
-    )
-    dataset_result_priors2.head(10)
-    return (
-        alt,
-        dataset_result_priors,
-        dataset_result_priors1,
-        dataset_result_priors2,
-    )
 @app.cell
 def _(mo):
-    mo.md(r"""# Diabetes Predictor""")
     return
@@ -165,10 +159,5 @@ def _(bnb, mo, priors_predict):
     return diabetes_or_not, prediction
-@app.cell
-def _():
-    return
 if __name__ == "__main__":
     app.run()

 @app.cell
 def _(mo):
+    mo.md("""## Testing Classifiers""")
     return
 @app.cell
 def _(dataset_prior_conditions, mo, pl):
     from sklearn.naive_bayes import BernoulliNB
+    from sklearn.tree import DecisionTreeClassifier
     from sklearn.model_selection import train_test_split
     from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
     )
     bnb = BernoulliNB()
+    dtc = DecisionTreeClassifier()
     y_pred_priors = bnb.fit(X_train_priors, y_train_priors).predict(X_test_priors)
+    y_pred_dtc = dtc.fit(X_train_priors, y_train_priors).predict(X_test_priors)
+    mo.accordion(
+        {
+            "Bernoulli NB Metrics": f"""
         Accuracy             : {accuracy_score(y_test_priors, y_pred_priors)}
         Confusion Matrix:
     ```
         {classification_report(y_test_priors, y_pred_priors)}
     ```
+        """,
+        "Decision Tree Classifier": f"""
+        Accuracy             : {accuracy_score(y_test_priors, y_pred_dtc)}
+        Confusion Matrix:
+    ```
+        {confusion_matrix(y_test_priors, y_pred_dtc)}
+    ```
+        Classification Report:
+    ```
+        {classification_report(y_test_priors, y_pred_dtc)}
+    ```
+        """})
     return (
         BernoulliNB,
+        DecisionTreeClassifier,
         X_priors_NB,
         X_test_priors,
         X_train_priors,
         bnb,
         classification_report,
         confusion_matrix,
+        dtc,
         train_test_split,
+        y_pred_dtc,
         y_pred_priors,
         y_priors_NB,
         y_test_priors,
 @app.cell
+def _(mo):
+    mo.md(r"""Looks like Bernoulli Naive Bayes' performs better on this dataset, as even though the Decision Tree Classifier has a bit better accuracy, the other metrics do give a better score on the BNB overall.""")
+    return
 @app.cell
 def _(mo):
+    mo.md(r"""# Diabetes Predictor using BNB""")
     return
     return diabetes_or_not, prediction
 if __name__ == "__main__":
     app.run()