Привет, ребята!! Я снова вернулся! все было немного беспокойно с моим университетом и работой. Я старался изо всех сил, чтобы завершить этот небольшой проект, но у меня все еще были задачи, но сегодня я рад показать вам, что я посвятил себя тому, чтобы убедиться, что я его закончу.

В этой статье объясняется, как реализовать логистическую регрессию на данных о раке и предсказать, будет ли окончательный прогноз доброкачественным или злокачественным. Постараюсь объяснить каждый шаг с картинками кода, а также со ссылкой на Google Colab, чтобы вы могли точно увидеть, как я работал с небольшим проектом. Я очень надеюсь, что вы найдете эту информацию.

Что такое логистическая регрессия?

Логистическая регрессия — это форма регрессии, в которой для набора непрерывных вводимых значений существует сигмоидальная функция, которая может быть значениями класса «0» или «1». Сигмовидную функцию можно представить в виде:

теперь, приступая к проекту, мы используем набор данных Kaggle, который очищен и имеет следующие атрибуты.

  • Толщина скопления. Это мера толщины клеток в опухоли.
  • Единообразие. Проверка степени сходства ячеек в образце по размеру и форме.
  • маргинальная адгезия: степень, в которой клетки в образце ткани прилипают или прилипают друг к другу на краю образца.,
  • Одиночное: размер эпителиальных клеток в образце эпителиальной ткани.
  • Голые ядра: относится к клеткам в образце ткани, у которых отсутствуют клеточная мембрана и цитоплазма.
  • Бледный: когда хроматин в ядре клетки компактный и однородный по внешнему виду.

Как обычно, наш первый шаг — загрузить набор данных и загрузить его на диск. Как только он будет доступен на диске, мы можем подключить наш диск Google к ноутбуку, а затем просто указать путь к функции панды.

После этого шага мы используем функцию «head ()», доступную в методе panda, чтобы мы могли просмотреть загруженные данные. Столбец «Класс» — это наше целевое значение в конце. Присмотревшись, нам нужно понять количество классов, присутствующих в этой колонке. Мы используем функцию «unique()», чтобы получить эти уникальные значения. Поскольку мы реализуем логистическую регрессию для этих данных, нам нужно преобразовать два значения класса [2,4] в [0,1]. Код ниже подчеркивает это.

теперь, когда наши данные на 100% нам нравятся, нам нужно найти корреляцию между этими переменными, а также проверить, есть ли какие-либо пропущенные значения (даже если этот набор данных является чистым набором данных, рекомендуется всегда проверять ваши данные для любых пустых пространств.

Наблюдая за матрицей, мы видим, что «однородность формы клеток» и «однородность размера ячеек» коррелируют друг с другом. Следовательно, мы будем использовать эти два значения в качестве основных определяющих факторов для нашей логистической регрессии.

Теперь, поскольку нам нужны только две строки и наш стандарт «x и y», мы разделим наш набор данных следующим образом и постараемся убедиться, что все в порядке. После этого разделяем данные с тестовым размером 0,25 (или 25% данных зарезервировано для тестирования)

Наш последний шаг — внедрить модель логистической регрессии, а затем спрогнозировать значение и понять его точность.

Выше только что выделен простейший вариант использования логистической регрессии. Несмотря на то, что степенная логистическая регрессия довольно проста, она должна предсказывать и обозначать классы. Иногда люди также называют алгоритмы двоичной классификации логистической регрессии.

Оставайтесь с нами, чтобы узнать больше. Далее идут алгоритмы классификации

Сценарист: Рохит Санджай (проповедник искусственного интеллекта)

Подпишитесь на наш блог: Блог AIPlus