Введение
В этом проекте у нас есть различные симптомы, которые часто встречаются у людей, страдающих диабетом. Набор данных собран с Kaggle с заданием от больницы, которую они хотели проверить на риск диабета человека, проверив эти параметры.
Конечная цель состоит в том, чтобы построить модель, которая может предсказать шансы человека иметь риск диабета, просматривая его отчет.
Словарь данных
*Количество беременностей
*Концентрация глюкозы в плазме крови через 2 часа при пероральном тесте на толерантность к глюкозе
*Диастолическое артериальное давление (мм рт.ст.)
*Толщина кожной складки трицепса (мм)
*2-часовой инсулин в сыворотке (мЕд/мл)
*Индекс массы тела (вес в кг/(рост в м)²)
*Функция родословной диабета
*Возраст (лет)
*Переменная класса (0 или 1)
*Распределение классов: (значение класса 1 интерпретируется как «положительный результат теста на
*сахарный диабет")
Это аргумент или отчет о том, какая модель будет определять шансы заболеть диабетом?
Импорт библиотек, используемых для обработки данных, таких как pandas, numpy, seaborn, matplotlib
Исследование данных
Цель здесь состоит в том, чтобы узнать больше о данных и стать предметом экспорта в наборе данных, с которым вы работаете.
Какой вопрос вы пытаетесь решить, какие данные у нас есть, и как мы относимся к разным типам того, чего не хватает в данных, и как вы с этим справляетесь? где выбросы и почему вы должны заботиться о них? Как вы можете добавить изменение или удалить функцию данных?
Моделирование данных
На этом этапе мы выберем наиболее подходящую модель, обучив разные модели на одном и том же наборе данных, а затем рассчитаем ее точность.
Мы использовали логистическую регрессию, knn, случайный лес, дерево решений.
Настройка гиперпараметров
Этот шаг выполняется, когда мы выбираем наиболее подходящую модель, а затем настраиваем нашу модель в нашем наборе данных. Поскольку эти настройки улучшают точность модели на 5%. Этот шаг делает модель более дружественной к набору данных и изменяет некоторые ее параметры.
- Мы будем использовать рандомизированное cv, которое помогает настроить модель, поскольку это позволит модели обучаться на разных значениях гиперпараметра за один прогон.
Прогнозирование результата
На этом этапе наша модель с хорошей точностью предскажет ярлык или вероятность того, что вы заболеете диабетом.
Так что эта модель будет полезна в реальном мире, потому что она может легко предсказать, есть ли у человека шанс заболеть диабетом, просматривая этот отчет. Это помогает врачу легко получить отчет, и он будет знать, какой пациент нуждается в лечении, а какой человек не нуждался в лечении.