Моя бакалаврская диссертация в Кашанском университете под руководством доктора Вахидипура посвящена новому алгоритму классификации и прогнозирования. Этот проект в основном сравнивает возможности и точность различных методов классификации. Он сравнивает их с методом, разработанным на основе генетических алгоритмов и нечеткой логики. В этом проекте мы используем python, а также некоторые его фреймворки. для instense, pandas, matplotlib и sklearn. Эти фреймворки - одни из лучших в этой области. Надеюсь, вы найдете этот проект полезным.

Я также должен поблагодарить доктора Негина Масуди Алави, а также Университет медицинских наук Кашана за предоставление нам этих чрезвычайно ценных наборов данных для работы.

Мы также используем эти методы

1. Логистическая регрессия:

Определение: логистическая регрессия - это алгоритм машинного обучения для классификации. В этом алгоритме вероятности, описывающие возможные результаты одного испытания, моделируются с использованием логистической функции.

Преимущества: логистическая регрессия предназначена для этой цели (классификации) и наиболее полезна для понимания влияния нескольких независимых переменных на одну переменную результата.

Недостатки: работает только в том случае, если прогнозируемая переменная является двоичной, предполагает, что все предикторы независимы друг от друга, и предполагает, что данные не содержат пропущенных значений.

2. Наивный Байес по Гауссу:

Определение: Наивный алгоритм Байеса, основанный на теореме Байеса с предположением независимости между каждой парой функций. Наивные байесовские классификаторы хорошо работают во многих реальных ситуациях, таких как классификация документов и фильтрация спама.

Преимущества: этот алгоритм требует небольшого количества обучающих данных для оценки необходимых параметров. Наивные байесовские классификаторы чрезвычайно быстры по сравнению с более сложными методами.

Недостатки: известно, что наивный байесовский метод плохой оценки.

3. Стохастический градиентный спуск:

Определение: стохастический градиентный спуск - это простой и очень эффективный подход для подбора линейных моделей. Это особенно полезно, когда количество образцов очень велико. Он поддерживает различные функции потерь и штрафы за классификацию.

Преимущества: Оперативность и простота внедрения.

Недостатки: требуется ряд гиперпараметров и чувствительно к масштабированию функций.

4. K-Ближайшие соседи:

Определение: Классификация на основе соседей - это тип ленивого обучения, поскольку он не пытается построить общую внутреннюю модель, а просто сохраняет экземпляры обучающих данных. Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки.

Преимущества: этот алгоритм прост в реализации, устойчив к зашумленным обучающим данным и эффективен, если обучающие данные велики.

Недостатки: необходимо определить значение K, а стоимость вычислений высока, так как необходимо вычислить расстояние от каждого экземпляра до всех обучающих выборок.

5. Классификатор дерева решений:

Определение: учитывая данные атрибутов вместе с их классами, дерево решений создает последовательность правил, которые могут использоваться для классификации данных.

Преимущества: Дерево решений просто для понимания и визуализации, требует небольшой подготовки данных и может обрабатывать как числовые, так и категориальные данные.

Недостатки: дерево решений может создавать сложные деревья, которые плохо обобщаются, а деревья решений могут быть нестабильными, поскольку небольшие изменения в данных могут привести к созданию совершенно другого дерева.

6. Классификатор случайных лесов:

Определение: Классификатор случайного леса - это метаоценка, которая соответствует ряду деревьев решений на различных подвыборках наборов данных и использует среднее значение для повышения точности прогноза модели и контроля чрезмерной подгонки. Размер подвыборки всегда совпадает с размером исходной входной выборки, но выборки отбираются с заменой.

Преимущества: Сокращение избыточного подгонки и случайного классификатора леса в большинстве случаев более точное, чем деревья решений.

Недостатки: медленное прогнозирование в реальном времени, сложность в реализации и сложный алгоритм.

7. Машина опорных векторов:

Определение: машина опорных векторов представляет собой представление данных обучения в виде точек в пространстве, разделенных на категории четким промежутком, который является как можно более широким. Затем новые примеры отображаются в том же пространстве и предсказываются как принадлежащие к категории, в зависимости от того, на какую сторону пропасти они попадают.

Преимущества: эффективен в пространствах большой размерности и использует подмножество обучающих точек в функции принятия решения, поэтому он также эффективен с точки зрения памяти.

Недостатки: алгоритм не дает напрямую оценок вероятностей, они рассчитываются с использованием дорогостоящей пятикратной перекрестной проверки.

Для получения дополнительной информации нажмите на эту ссылку:
https://analyticsindiamag.com/7-types-classification-algorithms/
Я также должен упомянуть, что я выбираю объяснение каждого метода из этого Веб-сайт.