Работа с CSV-файлами — обычная задача для всех начинающих специалистов по данным. И написание одного и того же кода с разными выходными значениями временами становится утомительным, и поэтому существует огромная потребность в автономной модели, которая может дать нам представление о том, как модель может работать с минимальной разработкой функций. Итак, здесь мы представляем удобную для начинающих модель автоматического машинного обучения, созданную мной и Рупамом Кумаром Роем, ARAMBHML, которая может принимать любой CSV-файл и судить по заданной выходной переменной, является ли проблема проблемой классификации или проблемой регрессии. и если будет обнаружено, что это задача классификации, решите проблему после выполнения базовой разработки функций, которая будет обсуждаться позже.

Пусть автономная модель возьмет верх!

АРАМБХМЛ

При получении CSV он запрашивает целевую переменную, которую пользователь хочет предсказать. После получения целевой переменной Auto ML автоматически определит, является ли задача решением проблемы классификации или регрессии. После этого, если проблема относится к классификационному типу, а целевая переменная имеет тип «объект», она пометит их кодированием для решения проблемы.

Независимые переменные будут обрабатываться отдельно, и для них будет выполняться базовая разработка функций. Базовая разработка признаков включает замену отсутствующих значений средними и медианными значениями в зависимости от типа переменной и ее распределения, а также стандартизацию непрерывной переменной, чтобы сделать значения диапазонными от 0 до 1. сильный>. После того, как основные функции разработаны, пришло время увидеть результаты с использованием различных моделей машинного обучения!

Здесь мы использовали 7 алгоритмов машинного обучения, чтобы увидеть, как они работают с набором данных. Алгоритмы включают логистическую регрессию, K ближайших соседей, классификатор дерева решений, классификатор случайного леса, Adaboost, XG Boost и LightGBM. Затем точность каждой из моделей отображается в виде гистограммы. Примечание. Результаты были получены после использования перекрестной проверки K Fold для обеспечения достоверности результатов.

И, наконец, чтобы отметить важность каждой из независимых переменных в прогнозировании целевого результата, мы использовали функцию Важность признаков случайного леса для извлечения важности признаков.

Итак, давайте посмотрим, как использовать нашу модель ARAMBHML.

Первоначально давайте выберем набор данных для нашей задачи. Набор данных, который был выбран здесь, — это Набор данных о диабете PIMA, взятый из Kaggle.

Давайте сначала установим ARAMBHML, используя pip install

!pip install ARAMBHML — upgrade

А в модели ARAMBHML есть основная функция — arambhNet, которую необходимо импортировать для решения нашей задачи классификации.

import ARAMBHML
from ARAMBHML import arambhNet

Затем обозначьте путь и целевую переменную, чтобы наша модель могла использовать набор данных для анализа и прогнозирования.

path = ‘/content/diabetes.csv’
target= ‘Outcome’

Затем нам нужно инициализировать модель arambhNet с путем и целью в качестве входных переменных.

new = arambhNet(path,target)

После этого пришло время выполнить наш анализ и посмотреть на прогнозы. Для этого нам нужно использовать функцию get_model_details, доступную в модуле arambhNet, и указать наш путь, а также цель в качестве наших входных переменных.

new.get_model_details(path,target)

А теперь давайте посмотрим на результаты, которых мы достигли.

Здесь мы видим, что модель автоматического ML обнаруживает, что это проблема классификации, и сообщает нам подробности о переменных и их характеристиках. И, наконец, мы получаем оценки точности каждой из моделей.

После этого показатели точности отображаются на гистограмме.

Наряду с оценками точности, важность признаков также отображается с помощью важности признаков случайного леса, которая показана на рисунке ниже.

Итак, здесь мы видим, что модель автоматического ML удобна для начинающих, и при ее использовании нет необходимости в каких-либо сложных операциях.

Этот инструмент может быть очень удобен, если вы новичок и хотите увидеть, как модели работают с разными наборами данных. Но да, следует понимать, что это не лучший результат, полученный наборами данных. Дополнительные улучшения в части разработки функций могут принести лучший результат, поскольку каждая проблема машинного обучения требует обширных исследований для получения хороших результатов. Более подробную информацию о нашей модели можно найти на https://pypi.org/project/ARAMBHML/

Надеюсь, что эта статья, а также наша модель Auto ML действительно будут вам полезны, и надеемся, что вы все будете использовать эту модель в своей работе. В конце концов, это просто pip install ARAMBHML!