Вы диабетик? Давайте создадим модель машинного обучения, чтобы знать это!

Введение

В этом проекте у нас есть различные симптомы, которые часто встречаются у людей, страдающих диабетом. Набор данных собран с Kaggle с заданием от больницы, которую они хотели проверить на риск диабета человека, проверив эти параметры.

Конечная цель состоит в том, чтобы построить модель, которая может предсказать шансы человека иметь риск диабета, просматривая его отчет.

Словарь данных

*Количество беременностей

*Концентрация глюкозы в плазме крови через 2 часа при пероральном тесте на толерантность к глюкозе

*Диастолическое артериальное давление (мм рт.ст.)

*Толщина кожной складки трицепса (мм)

*2-часовой инсулин в сыворотке (мЕд/мл)

*Индекс массы тела (вес в кг/(рост в м)²)

*Функция родословной диабета

*Возраст (лет)

*Переменная класса (0 или 1)

*Распределение классов: (значение класса 1 интерпретируется как «положительный результат теста на

*сахарный диабет")

Это аргумент или отчет о том, какая модель будет определять шансы заболеть диабетом?

Импорт библиотек, используемых для обработки данных, таких как pandas, numpy, seaborn, matplotlib

Исследование данных

Цель здесь состоит в том, чтобы узнать больше о данных и стать предметом экспорта в наборе данных, с которым вы работаете.

Какой вопрос вы пытаетесь решить, какие данные у нас есть, и как мы относимся к разным типам того, чего не хватает в данных, и как вы с этим справляетесь? где выбросы и почему вы должны заботиться о них? Как вы можете добавить изменение или удалить функцию данных?

Моделирование данных

На этом этапе мы выберем наиболее подходящую модель, обучив разные модели на одном и том же наборе данных, а затем рассчитаем ее точность.

Мы использовали логистическую регрессию, knn, случайный лес, дерево решений.

Настройка гиперпараметров

Этот шаг выполняется, когда мы выбираем наиболее подходящую модель, а затем настраиваем нашу модель в нашем наборе данных. Поскольку эти настройки улучшают точность модели на 5%. Этот шаг делает модель более дружественной к набору данных и изменяет некоторые ее параметры.

Мы будем использовать рандомизированное cv, которое помогает настроить модель, поскольку это позволит модели обучаться на разных значениях гиперпараметра за один прогон.

Прогнозирование результата

На этом этапе наша модель с хорошей точностью предскажет ярлык или вероятность того, что вы заболеете диабетом.

Так что эта модель будет полезна в реальном мире, потому что она может легко предсказать, есть ли у человека шанс заболеть диабетом, просматривая этот отчет. Это помогает врачу легко получить отчет, и он будет знать, какой пациент нуждается в лечении, а какой человек не нуждался в лечении.

Для кода: https://github.com/kumaramarjeet7503/Machine-Learning-Projects/blob/main/End_to_end_Diabities_project.ipynb