Введение

В этом проекте у нас есть различные симптомы, которые часто встречаются у людей, страдающих диабетом. Набор данных собран с Kaggle с заданием от больницы, которую они хотели проверить на риск диабета человека, проверив эти параметры.

Конечная цель состоит в том, чтобы построить модель, которая может предсказать шансы человека иметь риск диабета, просматривая его отчет.

Словарь данных

*Количество беременностей

*Концентрация глюкозы в плазме крови через 2 часа при пероральном тесте на толерантность к глюкозе

*Диастолическое артериальное давление (мм рт.ст.)

*Толщина кожной складки трицепса (мм)

*2-часовой инсулин в сыворотке (мЕд/мл)

*Индекс массы тела (вес в кг/(рост в м)²)

*Функция родословной диабета

*Возраст (лет)

*Переменная класса (0 или 1)

*Распределение классов: (значение класса 1 интерпретируется как «положительный результат теста на

*сахарный диабет")

Это аргумент или отчет о том, какая модель будет определять шансы заболеть диабетом?

Импорт библиотек, используемых для обработки данных, таких как pandas, numpy, seaborn, matplotlib

Исследование данных

Цель здесь состоит в том, чтобы узнать больше о данных и стать предметом экспорта в наборе данных, с которым вы работаете.

Какой вопрос вы пытаетесь решить, какие данные у нас есть, и как мы относимся к разным типам того, чего не хватает в данных, и как вы с этим справляетесь? где выбросы и почему вы должны заботиться о них? Как вы можете добавить изменение или удалить функцию данных?

Моделирование данных

На этом этапе мы выберем наиболее подходящую модель, обучив разные модели на одном и том же наборе данных, а затем рассчитаем ее точность.

Мы использовали логистическую регрессию, knn, случайный лес, дерево решений.

Настройка гиперпараметров

Этот шаг выполняется, когда мы выбираем наиболее подходящую модель, а затем настраиваем нашу модель в нашем наборе данных. Поскольку эти настройки улучшают точность модели на 5%. Этот шаг делает модель более дружественной к набору данных и изменяет некоторые ее параметры.

  • Мы будем использовать рандомизированное cv, которое помогает настроить модель, поскольку это позволит модели обучаться на разных значениях гиперпараметра за один прогон.

Прогнозирование результата

На этом этапе наша модель с хорошей точностью предскажет ярлык или вероятность того, что вы заболеете диабетом.

Так что эта модель будет полезна в реальном мире, потому что она может легко предсказать, есть ли у человека шанс заболеть диабетом, просматривая этот отчет. Это помогает врачу легко получить отчет, и он будет знать, какой пациент нуждается в лечении, а какой человек не нуждался в лечении.

Для кода: https://github.com/kumaramarjeet7503/Machine-Learning-Projects/blob/main/End_to_end_Diabities_project.ipynb