Аналитика – это систематический вычислительный анализ данных или статистики. Он используется для обнаружения, интерпретации и передачи значимых закономерностей в данных. Он также фокусируется на применении шаблонов данных для эффективного принятия решений. Это может быть полезно в областях, богатых записанной информацией; аналитика опирается на одновременное применение статистики, компьютерного программирования и операционных исследований для количественной оценки производительности. Анализ данных не ограничивается числами и строками, поскольку изображения и звуки также можно анализировать и классифицировать.

Scikit-learn (ранее scikits.learn и также известная как sklearn) — это бесплатная библиотека машинного обучения для языка программирования Python. Он включает в себя различные алгоритмы классификации, регрессии и кластеризации, включая метод опорных векторов, r случайный лес, g радиационное повышение, k-means и DBSCAN, и предназначен для взаимодействия с числовым программным обеспечением Python. и научные библиотеки NumPy и SciPy. Здесь мы собираемся проанализировать набор цифр из обучающей библиотеки Sci-Kit. Мы собираемся обучить машину опорных векторов, а затем будем предсказывать значения неизвестных рукописных цифр.

Здесь мы используем Jupyter Notebook для выполнения операций. Итак, давайте начнем сначала с импорта необходимых библиотек.

Всего в наборе данных 1797 изображений.

Весь наш набор данных хранится в цифрах. Ниже приведен пример цифры в нашем наборе данных. Он состоит из 64 пикселей (8X8). Набор данных содержит изображения рукописных цифр: 10 классов, где каждый класс относится к цифре от 0 до 9. Каждое изображение хранится в виде матриц 8x8 следующим образом (для цифры 0):

Значение матрицы для цифры

Этот набор данных состоит из 1797 изображений размером 8x8 пикселей. Каждое изображение представляет собой рукописную цифру в оттенках серого, как показано на рис.

Пиксельное изображение в наборе данных

Давайте обучим нашу SVM с первыми 1790 изображениями в нашем наборе данных. После этого мы будем использовать оставшийся набор данных в качестве наших тестовых данных и проверим точность нашей обучающей машины.

Он состоит из 6 изображений по 64 пикселя каждое (8X8) шести разных чисел. Вывод вышеуказанных тестовых данных будет производиться следующим образом:

Давайте подгоним нашу модель с помощью классификатора SVM. Здесь мы используем первые 1790 изображений для обучения модели, а остальные — для проверки.

Оценка по модели

Как мы видим, и прогнозируемые, и целевые значения для этих данных одинаковы. Давайте проверим описание модели для некоторых наборов данных.

Как видим, мы добились 100% точности. Давайте теперь определим функцию, которая определит точность нашего SVM и обучит нашу модель с различным набором данных. Мы начнем с 3 элементов в наших обучающих данных и дойдем до 1790 данных и сохраним точность наших моделей в словаре.

Функция точности

Словарь значений содержит все значения точности для данной модели.

Давайте построим наш результат словаря, чтобы визуализировать результат точности.

Точность модели

Давайте попробуем сформировать матрицу путаницы, используя Seaborn.

Теперь давайте сформируем матрицу путаницы, используя Matplotlib.

Мы предсказали, используя 75% обучающего набора и 25% тестового набора, мы получили точность около 96,4%. Теперь давайте попробуем спрогнозировать, используя 70% тренировочного набора и 30% тестового набора.

Вывод:

Как мы можем ясно видеть, для более чем 95% наших моделей достигнутая точность составляет 100%. Следовательно, мы можем легко сделать вывод, что наша модель работает с точностью более 95% времени. Следовательно, с использованием библиотеки Scikit-Learn в python анализ данных становится простым, эффективным и занимает меньше времени.

Я благодарен наставникам на «https://internship.suvenconsultants.com за то, что они предоставили отличные формулировки задач и дали многим из нас опыт стажировки по кодированию. Спасибо www.suvenconsultants.com'