Изучение эффективности классификации различных моделей для классификации диабета

В данной статье мы анализируем эффективность различных классификаторов в задаче классификации сахарного диабета. Мы используем набор данных, состоящий из 5329 экземпляров с 12 атрибутами, относящимися к пациентам с диабетом. Создавая и оценивая модели с использованием различных классификаторов, мы стремимся определить наиболее эффективный подход для точного прогнозирования случаев диабета. Метрики оценки включают точность, прецизионность, полноту, F-меру и матрицу путаницы, которая дает ценную информацию о сильных и слабых сторонах каждого классификатора.

Очистка/обработка данных включает в себя удаление повторяющихся записей, обработку отсутствующих значений, проверку и исправление типов данных, а также стандартизацию или нормализацию данных для обеспечения единообразия. Мы также удаляем нерелевантные или ненужные столбцы, чтобы упростить анализ и сосредоточиться на наиболее информативных функциях.

Классификаторы

Мы оцениваем несколько классификаторов, в том числе дерево решений J48, случайный лес, наивный байесовский алгоритм, метод опорных векторов (SVM) и метод k-ближайших соседей (k-NN). Для каждого классификатора мы представляем сводку его производительности на обучающем наборе.

J48 Дерево решений

Классификатор обрезанных деревьев J48 достиг точности 43,67%, правильно классифицировав 2327 экземпляров. Однако 3002 экземпляра были неправильно классифицированы. Средняя абсолютная ошибка составила 0,1922, а среднеквадратическая ошибка — 0,31. Примечательно, что производительность классификатора с точки зрения точности, полноты, F-меры и MCC не была предоставлена. Матрица путаницы показала, что все экземпляры были отнесены к классу 6, и ни один экземпляр не был отнесен к другим классам. Для более полной оценки рекомендуется дальнейшая оценка на независимом тестовом наборе.

Случайный лес

Классификатор Random Forest продемонстрировал выдающуюся производительность, достигнув 100% точности на тренировочном наборе. Этот классификатор использовал 100 итераций мешков с алгоритмом случайного дерева в качестве базового ученика. Показатели оценки, включая среднюю абсолютную ошибку и среднеквадратичную ошибку, составили 0,0672 и 0,1126 соответственно. Относительная абсолютная ошибка классификатора составила 34,946%, что свидетельствует о минимальных ошибках в прогнозах. Результаты показывают, что классификатор Random Forest точно предсказал классы качества случаев диабета во всех категориях.

Наивный Байес

Наивный байесовский классификатор достиг общей точности 65,25%, правильно классифицировав 3477 экземпляров. Однако 1852 экземпляра были классифицированы неправильно. Статистика Каппа показала умеренный уровень согласия между предсказанными и фактическими классами. Производительность классификатора различалась в разных классах, с разными истинными положительными показателями, точностью, полнотой и F-мерой. Матрица путаницы предоставила подробную разбивку экземпляров, классифицированных по каждому классу.

Машина опорных векторов (SVM) или SMO

Классификатор SVM или SMO ​​продемонстрировал точность 84,1246% на обучающем наборе, правильно классифицировав 4483 экземпляра. Статистика Каппа показала существенное соответствие между предсказанной и фактической классификациями. Средняя абсолютная ошибка и среднеквадратическая ошибка составили 0,2066 и 0,3051 соответственно. Показатели производительности классификатора варьировались в зависимости от класса, а подробная точность по классам давала дополнительные сведения. Матрица путаницы продемонстрировала количество экземпляров, отнесенных к каждому классу.

k-ближайшие соседи (k-NN) или IBk

Классификатор k-ближайших соседей (k-NN) или классификатор k-ближайших соседей на основе экземпляров (IBk) продемонстрировал исключительную производительность на обучающем наборе. С точностью 100% он правильно классифицировал все экземпляры. Показатели оценки, включая статистику Каппа, среднюю абсолютную ошибку и среднеквадратичную ошибку, указывали на высокую точность модели и минимальные ошибки. Подробная точность по классам показала идеальную точность, полноту, F-меру и другие показатели для каждого класса.

В заключение, оценка моделей классификации на наборе данных о диабете дала ценную информацию об их эффективности. В то время как некоторые модели продемонстрировали высокую точность и точность, другие показали ограничения в правильной классификации экземпляров. Понимание этих результатов может помочь в дальнейшем улучшении выбора модели и настройки параметров. Очень важно оценивать модели на независимых наборах тестов, чтобы проверить их производительность и обеспечить надежные прогнозы для реальных приложений.