Распознавание рукописных цифр с использованием машинного обучения

Машинное обучение и глубокое обучение играют важную роль в компьютерных технологиях и искусственном интеллекте. Благодаря использованию глубокого обучения и машинного обучения человеческие усилия могут быть уменьшены в распознавании, обучении, прогнозировании и во многих других областях. В этой статье представлено распознавание рукописных цифр (от 0 до 9) из известного набора данных MNIST, сравнение классификаторов, таких как KNN, PSVM, NN и сверточная нейронная сеть, на основе производительности, точности, времени, чувствительности, положительной производительности и специфичности с использованием различных параметров. с классификаторами.

Распознавание рукописных цифр приобрело большую популярность от начинающего новичка в области машинного обучения и глубокого обучения до эксперта, практикующего много лет. Разработка такой системы включает в себя машину для понимания и классификации изображений рукописных цифр как 10 цифр (0–9). Рукописные цифры из базы данных MNIST уже известны сообществу в течение многих последних десятилетий, поскольку снижают частоту ошибок с различными классификаторами и параметрами наряду с методами предварительной обработки с 12% -ной частоты ошибок с линейным классификатором (1 слой NN) до достижения ошибки 0,23%. скорость с иерархией из 35 сверточных нейронных сетей [Ян ЛеКун, база данных рукописных цифр MNIST]. Целью данной статьи является сравнение различных классификаторов с разными параметрами и попытка достичь производительности, близкой к человеческой.

Система распознавания цифр

Система распознавания цифр - это работа машины по обучению или распознаванию цифр из разных источников, таких как электронная почта, банковский чек, документы, изображения и т. Д., И в различных реальных сценариях для онлайн-распознавания рукописного ввода на компьютерных планшетах или системе, распознавание числа номера транспортных средств, обработка сумм банковских чеков, числовые записи в формах, заполняемых вручную (например, налоговые формы) и т. д.

Проблемы с рукописными цифрами

Рукописные цифры не всегда имеют одинаковый размер, ширину, ориентацию и выравниваются по полям, поскольку они отличаются от человека к человеку, поэтому общая проблема будет при классификации цифр из-за сходства между цифрами, такими как 1 и 7, 5 и 6, 3 и 8, 2 и 5, 2 и 7 и т. Д. Эта проблема чаще возникает, когда многие люди пишут одну цифру разными почерками. Наконец, уникальность и разнообразие почерка разных людей также влияют на формирование и внешний вид цифр. Теперь мы познакомим вас с концепциями и алгоритмами глубокого обучения и машинного обучения.

Набор данных MNIST

Образцы, предоставленные из набора данных MNIST (Модифицированный национальный институт стандартов и технологий), включают в себя рукописные цифры в сумме 70 000 изображений, состоящих из 60 000 примеров в обучающем наборе и 10 000 примеров в наборе для тестирования, оба с помеченными изображениями из 10 цифр (от 0 до 9). Это небольшой сегмент из широкого набора из NIST, где размер был нормализован, чтобы соответствовать прямоугольнику 20 * 20 пикселей и без изменения соотношения сторон. Рукописные цифры - это изображения в виде изображений с интенсивностью серого 28 * 28, представляющих изображение вместе с первым столбцом, который является меткой (от 0 до 9) для каждого изображения. То же самое было выбрано для тестового набора из 10 000 изображений с меткой от 0 до 9.

Ян Лекун, Коринна Кортес и Кристофер Берджес разработали этот набор данных MNIST для оценки и улучшения моделей машинного обучения по проблеме классификации рукописных цифр. Набор данных MNIST был разработан на основе специального набора данных от NIST со специальной базой данных 3 (сотрудники Бюро переписи населения США) и специальной базой данных 1 (учащиеся старших классов), которые состоят из двоичных изображений рукописных цифр. Ранее SD-3 (специальная база данных -3) рассматривался как обучающий, а SD-1 (специальная база данных -1) как набор для тестирования с более легким распознаванием уровня SD-3. Поэтому, чтобы сделать его сложным, непересекающимся и справедливым для разных классификаторов обучения, набор данных NIST был перепутан. Разделение MNIST состоялось на 30 000 сэмплов из SD-3 и 30 000 сэмплов из SD-1 с 250 записывающими примерами. и 5000 образцов из SD-3 и оставшиеся 5000 образцов из SD-1 для формирования другого набора для испытаний. Изображения цифр были взяты из различных сканированных цифр, нормализованы по размеру и выровнены по центру. Это делает его отличным набором данных для оценки моделей и позволяет соискателям машинного обучения сосредоточиться на глубоком обучении и машинном обучении с очень небольшой очисткой данных.

Говоря о более новой или более модифицированной версии, которая похожа на стандартный MNIST, в 2017 году были выпущены EMNIST или расширенный MNIST с образцами из 2 40000 изображений в обучающем наборе с увеличением до 40000 изображений в наборе для тестирования. состоящий из рукописных цифр.

Доступные файлы в наборе данных

Итак, прежде чем углубляться в эту тему, лучше ознакомиться с предоставленным набором данных. Следующие пункты совпадают с набором для обучения и тестирования, а также с набором файлов изображений и этикеток:

Пиксели располагаются по строкам в диапазоне от 0 до 255 в соответствии с цветовым кодом RGB.
Фон как белый (значение 0 из RGB) и передний план как черный (значение 255 из RGB).
Этикетки цифр от 0 до 9.

Есть четыре файла обучения и тестирования:

Файлы образов обучающего набора (train-images-idx3-ubyte)
Файл меток обучающего набора (train-labels-idx1-ubyte)
Файлы тестового набора изображений (t10k-images-idx3-ubyte)
Файлы меток тестового набора (t10k-labels-idx1-ubyte)

Лучшее понимание набора данных

Набор данных MNIST предоставляется в формате IDX. Этот формат файла IDX представляет собой простой формат, который удобен при работе с векторами и многомерными матрицами различных числовых типов. Начиная с магического числа в столбце описания, доступном в формате файла. Мы можем определить магическое число как целое значение (скажем, сначала MSB), где первые 2 байта всегда считаются равными нулю. Это дает нам следующую информацию:

0000 (2 байта), информирующий о начале файла.
08 сообщает нам, что третий байт имеет беззнаковый байтовый тип.
Четвертый байт, 03, сообщает нам, что матрица имеет три измерения, а 01 сообщает только одно измерение.

Третий байт указывает, являются ли данные целочисленным, с плавающей запятой, коротким, длинным или беззнаковым типом. Четвертый байт сообщает размерность вектора или матрицы, то есть количество строк и столбцов. Если он равен 1, то это вектор, иначе это матрица. Переменная количества элементов также сначала читается как MSB.

Переход с IDX на более простой CSV

Поскольку наш набор данных доступен в формате IDX [Янн ЛеКун, база данных рукописных цифр MNIST], мы можем преобразовать наш набор данных в форматы CSV с помощью алгоритма [Джозеф Чет Редмон, Алгоритм для изменения idx в csv], и мы можем получить набор данных MNIST в CSV формат. Чтобы лучше понять CSV:

Первый столбец или значение - это «метка», то есть действительная цифра, которую должен классифицировать почерк, например, «7» или «9». Это правильное решение, которое классификатор стремится классифицировать.
Остальные значения или все значения, разделенные запятыми, представляют собой интенсивности значений пикселей рукописной цифры, варьирующиеся от 0 до 255. Размер изображения составляет 28 на 28, поэтому для метки имеется 784 (28 * 28) значений. [Джозеф Чет Редмон, Алгоритм преобразования idx в csv].

КЛАССИФИКАТОРЫ

В этом разделе мы обсудим различные алгоритмы машинного обучения и глубокого обучения для прогнозирования и повышения точности. Классификаторы в машинном обучении -

KNN (K ближайших соседей)

KNN - это непараметрический метод или классификатор, используемый для классификации, а также для задач регрессии. Это алгоритм классификации с отложенным или поздним обучением, в котором все вычисления производятся до последнего этапа классификации, а также это алгоритмы обучения на основе экземпляров, в которых аппроксимация выполняется локально. Поскольку алгоритм является самым простым и легким в реализации, здесь нет явной фазы обучения ранее, и алгоритм не выполняет никакого обобщения данных обучения.

Когда использовать? Прямое решение - это нелинейные границы принятия решений между классами или когда объем данных достаточно велик. Входные характеристики могут быть как качественными, так и количественными по своей природе. В то время как выходные функции могут быть категориальными значениями, которые являются типичными классами, видимыми в данных.

KNN объясняет категориальную ценность, используя большинство голосов K ближайших соседей, где значение K может отличаться, поэтому при изменении значения K ценность голосов также может меняться.

Предположение

Будучи непараметрическим, алгоритм не делает никаких предположений относительно исходных данных.
Выберите параметр K на основе данных.
Требуется метрика расстояния для определения близости между любыми двумя точками данных. Это расстояние можно рассчитать на основе евклидова расстояния, расстояния Махаланобиса, расстояния Хэмминга и т. Д.

Алгоритм

Вычислите метрику расстояния между контрольной точкой данных и всеми помеченными точками данных.
Расположите отмеченные точки данных в порядке возрастания метрики расстояния.
Выберите верхние K помеченных точек данных и посмотрите на метки классов.
Найдите метки классов, которые есть у большинства этих отмеченных K точек данных, и назначьте их тестовым точкам данных.

Что нужно учитывать -

Выбор параметра - лучший выбор K зависит от данных. Большее значение K снижает влияние шума на классификацию, но делает границы принятия решений между бесклассовыми различиями. На меньшее значение K обычно влияет шум с четким разделением классов.
Наличие шума
Выбор и масштабирование функций. Важно уменьшить количество нерелевантных функций. Когда количество функций слишком велико и предполагается, что они сильно избыточны, потребуется извлечение функций. Если характеристики выбраны тщательно, ожидается, что классификация будет лучше.
Проклятие размерности

Чтобы лучше понять, давайте посмотрим на различные значения для K. Скажем, в случае 1 значение для K равно 3. Тогда класс для точки тестовых данных будет красного цвета среди классов для красного и синего. Для K = 5 в случае 2 прогнозируемый класс будет синего цвета из алгоритма KNN. Таким образом, для изменения значения K выходные данные для точки тестовых данных также могут варьироваться. Поэтому необходимо с умом выбирать значение K. Большое значение K может снизить общий шум, но нет гарантии.

Функции расстояния

В KNN используются различные дистанционные функции:

Евклидова функция
Манхэттенская функция
Минковский
Расстояние Хэмминга
Расстояние Махаланобиса

Команда на выполнение KNN

Мы можем варьировать параметры для классификатора и наблюдать за изменением извлечения классификатора и проводить сравнение того, насколько хорошо и эффективно работает с различными параметрами и гиперпараметрами.

класс sklearn.neighbors. KNeighborsClassifier (n_neighbors = 5, weights = 'uniform', algorithm = 'auto', leaf_size = 30, p = 2, metric = 'minkowski', metric_params = None , n_jobs = 1, ** kwargs)

SVM (машина опорных векторов)

SVM попадает в категорию контролируемого обучения и имеет бонус в виде классификации, а также проблемы регрессии. Как правило, SVM рисует оптимальную гиперплоскость, которая подразделяется на разные категории. В двухмерном пространстве. Для начала мы наносим точки данных независимой переменной, соответствующие зависимым переменным. Затем начните процесс классификации с просмотра гиперплоскости или любой линейной или нелинейной плоскости, которая наилучшим образом дифференцирует два класса.

Алгоритм

Сначала поймите, в случае бинарной классификации:

Определите правильную гиперплоскость, которая лучше разделяет два класса.
Найдите максимальное расстояние между ближайшей точкой данных (любого класса) и гиперплоскостью, расстояние измеряется как запас. Так что ищите гиперплоскость с максимальным запасом с обеих сторон одинаково. Гиперплоскость с более высоким запасом прочности более надежна, тогда как низкий запас изменился из-за неправильной классификации.
SVM точно выбирает классификатор для получения максимальной прибыли.
SVM устойчив к классификатору и имеет функцию игнорирования выбросов и попытки поиска гиперплоскости с максимальным запасом.

Параметры настройки

Ядро: линейная алгебра играет роль в преобразовании обучения гиперплоскости в линейную SVM.

F (x) = B (0) + sum (ai * (X, Xi))

2. Линейное ядро: скалярное произведение - это ядро и показано как - K (x, xi) = sum (x * xi), ядро - это измерение подобия или расстояния между новой точкой данных и гиперплоскостями опорных векторов. Уловка с ядром - это разделительная линия в более высоком измерении, рассчитанная с помощью полиномиального и экспоненциального уловок.

3. Полиномиальное ядро: то же, что и ядро, но с указанием степени. Если d = 1 преобразовать в линейное ядро.

K (x, xi) = 1 + сумма (x * xi) ^ d.

4. Радиальное ядро: более сложным ядром является радиальное ядро.

K (x, xi) = exp (-gamma * sum ((x - xi²))

Если гамма задана в алгоритме, хорошо рассматриваемое значение гаммы принимается равным 0,1, где гамма отличается от 0 до 1. Замкнутые многоугольники в двумерном пространстве образуются, когда радиальное ядро создает сложные области в пространстве признаков.

5. Маржа: маржа должна сохраняться на равном расстоянии с обеих сторон.

Вычислительная команда

class sklearn.svm. SVC (C = 1.0, kernel = 'rbf', degree = 3, gamma = 'auto', coef0 = 0,0, shrinking = True, вероятность = False , tol = 0,001, cache_size = 200, class_weight = None, verbose = False, max_iter = -1, solution_function_shape = 'ovr', random_state = None)

NN (нейронные сети)

Нейронные сети имитируют работу нашего мозга. Их много появилось в эпоху достижений в области вычислительной мощности.

Глубокое обучение - это аббревиатура от Neural Networks, сети, связанной с множеством уровней. Слои составлены из узлов. Узел - это просто восприятие, которое принимает входные данные, выполняет некоторые вычисления, а затем передается через функцию активации узла, чтобы показать, до какого контекста прогресс сигнала проходит через сеть для выполнения классификации.

Алгоритм

Инициализация весов случайным образом (не путем сохранения нуля)
Реализация прямого распространения для достижения hθ (x (i)).
Стоимость вычислений
Теперь оцените обратное распространение для вычисления частных производных и используйте проверку градиента, чтобы убедиться, что обратное распространение работает нормально. Затем отключите проверку градиента.
Используйте градиентный спуск или любую встроенную функцию оптимизации, чтобы минимизировать функцию стоимости с весами тета.

Собираем все вместе

Выберите макет нейронной сети, состоящий из ряда скрытых блоков в каждом слое и как общее количество слоев

Размеры признаков Xi равны количеству входных единиц.
Количество выходных единиц - это количество классов.
Количество скрытых единиц на уровне обычно равно больше, тем лучше (необходимо уравновесить стоимость вычислений, поскольку она увеличивается с увеличением количества скрытых единиц).
По умолчанию: 1 скрытый слой, если более 1 скрытого слоя, то такое же количество единиц в каждом скрытом слое.

Команда классификатора

MLP означает многослойный персептрон, и здесь мы используем sklearn с MLPClassifier вместе с другими параметрами.

класс sklearn.neural_network. MLPClassifier (hidden_layer_sizes = (100,), Activation = 'relu', solver = 'adam', alpha = 0.0001, batch_size = 'auto', Learning_rate = 'constant ', learning_rate_init = 0.001, power_t = 0.5, max_iter = 200, shuffle = True, random_state = None, tol = 0,0001, verbose = False, warm_start = False, momentum = 0.9, nesterovs_momentum = True, early_stopping = False, validation_fraction = 0.1, beta_1 = 0,9, beta_2 = 0,999, epsilon = 1e-08)

CNN (сверточная нейронная сеть)

Теперь поговорим о сверточных нейронных сетях, CNN стала известной в последнее время. CNN является частью глубоких искусственных нейронных сетей с прямой связью, которые могут выполнять множество задач с даже лучшим временем и точностью, чем другие классификаторы, в различных приложениях распознавания изображений и видео, системы рекомендаций и обработки естественного языка.

Использование CNN распространилось по мере того, как Facebook использует нейронные сети для своих алгоритмов автоматической маркировки, Google для поиска фотографий, Amazon для своих рекомендаций по продуктам, Pinterest для персонализации своей домашней ленты и Instagram для инфраструктуры поиска. Классификация изображений или распознавание объектов - это проблема передачи изображения в качестве параметра и прогнозирования того, выполняется ли условие (кошка или нет, точка или нет), или вероятность или наиболее удовлетворительное условие для изображения. Мы умеем быстро распознавать закономерности, обобщать предыдущую информацию и знания.

Входы и выходы

Когда компьютер или система снимают изображение, они просто видят массив значений пикселей. Предположим, 480 * 480 * 3, где 480 * 480 - размер, 3 относится к значениям RGB. Каждому из этих чисел присваивается значение от 0 до 255 в качестве интенсивности пикселей в этой точке. Ключевым моментом является то, что на основе изображения в качестве входных данных компьютерная система предсказывает и делает предположение в качестве выходных данных для описания вероятности того, что изображение является указанным или определенным классом (скажем, 0,90 для класса 1, 0,96 для класса 2, 0,4 для класс 3).

Алгоритм

Чтобы увидеть, какие шаги выполняет система для прогнозирования, мы можем определить алгоритмы как -

Разбить изображение на маленькие фрагменты изображения - аналогично скользящему окну, мы можем пропустить скользящее окно по всему большому изображению, и каждый результат сохраняется как отдельный, как сегмент большого изображения как крошечный фрагмент изображения.
Подача каждой крошечной плитки в нейронную сеть меньшего размера - мы редко инициализируем параметры с одинаковыми значениями, а если нет, то мы отмечаем эту плитку как интересную.
Сохраните результаты для каждой маленькой плитки в новый массив - мы не хотели бы потерять индекс исходного файла. Таким образом, мы помещаем результаты в сетку в том же порядке, что и исходное изображение.
Пониженная дискретизация - для уменьшения размера нового массива используется понижающая дискретизация путем максимального объединения.

Слои сверточной нейронной сети

Многократное появление этих слоев показывает, насколько глубока наша сеть, и это образование известно как глубокая нейронная сеть.

Вход: необработанные значения пикселей предоставляются в качестве входных данных.
Сверточный слой: входные слои переводят результаты нейронного слоя. Необходимо указать используемый фильтр. Каждый фильтр может быть только окном 5 * 5, которое перемещается по входным данным и получает пиксели с максимальной интенсивностью.
Слой выпрямленного линейного блока [ReLU]: обеспечивает функцию активации для данных, взятых в виде изображения. В случае обратного распространения используется функция ReLU, предотвращающая изменение значений формы пикселей.
Слой объединения: выполняет операцию уменьшения объема выборки по размерам (ширине, высоте).
Полностью связанный слой: класс оценки сфокусирован, и найдена максимальная оценка входных цифр.

По мере того, как мы погружаемся все глубже и глубже в слои, сложность намного возрастает. Но, возможно, стоит пойти, так как точность может увеличиться, но, к сожалению, возрастет и время.

ЭКСПЛУАТАЦИОННЫЕ МЕРЫ

В машинном обучении и глубоком обучении производительность или эффективность классификатора демонстрируется различными функциями, которые показывают, насколько хорошо работает конкретный классификатор. Поскольку названия также предполагают измерения или значения, используемые для сравнения производительности классификатора.

Матрица путаницы

Это то же самое, что и матрица ошибок, с помощью матрицы неточностей легко показать, какой процент прогнозов, сделанных нашим классификатором, был правильным, а классификатору было трудно предсказать фактическую классификацию. Для того, чтобы отобразить матрицу путаницы, лучше потренироваться изобразить в виде таблицы. Что ж, для создания матрицы путаницы для наших цифр мы столкнемся с 10 классами, скажем, с 10 строками и 10 столбцами, где каждая цифра будет сравниваться с другими цифрами, и мы можем легко показать, где наш классификатор предсказал неверно, а где он предсказал правильно, вместе с общим числом. раз.

Используемые терминологии:

TP = истинно положительный
TN = истинно отрицательное
FP = ложное срабатывание
FN = ложноотрицательный

TP - это правильная идентификация положительных меток, TN - правильная идентификация отрицательных меток, FP - неправильная идентификация положительных меток, FN - неправильная идентификация отрицательных ярлыков.

Начиная со статистической постановки.

Точность

Общая эффективность классификатора, лучше всего определяет точность или часть истинных результатов (то есть с истинными положительными и истинными отрицательными) от общей суммы.

Точность = (TP + TN) / N, где N - сумма TP, TN, FN, FP.

Максимальное значение, которого может достичь точность, равно 1. Это происходит, когда классификатор точно классифицирует две группы (т.е. FP = 0 и FN = 0). Помните, что общее количество истинно положительных результатов равно TP + FN. Общее количество истинно отрицательных - TN + FP.

Чувствительность

Чувствительность можно определить как эффективность классификатора для выявления положительных меток. Это также известно как отзыв.

Чувствительность = (TP) / (TP + FN)

Специфичность

Это определяется как эффективность классификатора для правильной идентификации негативных меток.

Специфичность = (TN) / (FP + TN)

И чувствительность, и специфичность лежат между 0 и 1, 1 - идеальное значение для каждого из них. Мы рассчитываем сбалансированную точность как среднее значение чувствительности и специфичности.

Распространенность

Ну, а как часто в нашей выборке действительно встречается условие «да»?

Распространенность = (TP + FN) / N

N - это сумма всех условий, то есть TP, FN, FP, TN.

Положительные предсказанные значения

Часть правильного значения приводит к маркировке положительных результатов.

Positive_predicted_value = (Чувствительность * Распространенность) / ((Чувствительность * распространенность) + (1 - специфичность) * (1 - распространенность))

Отрицательные прогнозируемые значения

Доля правильных результатов на этикетке, отмеченных как отрицательные.

Negative_predicted_values = Специфичность * (1 - распространенность) / (((1 - чувствительность) * распространенность) + (специфичность * (1 - распространенность)))

Скорость обнаружения

Уровень обнаружения - это деление истинных положительных результатов на общее количество условий.

DR = TP / N

Ожидаемая точность

Также рассматривается как случайный случай среди условий

Ожидаемая_точность = ((TP + FN) * (TP + FP) + (FP + TN) * (FN + TN)) / N

Где N - сумма всех условий, то есть TP, FN, FP и TN.

Статистика каппа

Статистика (или значение) Каппа - это показатель, который сравнивает наблюдаемую точность с ожидаемой точностью (скажем, случайной вероятностью).

Каппа = (наблюдаемая точность - ожидаемая_ точность) / (1 - ожидаемая_ точность)

У классификатора есть множество показателей производительности, чтобы показать, насколько хорошо он работает в этих статистических ситуациях. Скорость, предсказываемая классификатором, также улучшает общую производительность, и мы классифицируем ее как быстрый классификатор. В этих примерах сначала сохраняется описание разбивки ошибок в прогнозах для невидимого набора данных.

Результат

Для исследовательских целей или применения классификаторов к реальным сценарным задачам. Лучшим показателем считаются точность и скорость распознавания. Поговорим теперь о разных классификаторах один за другим.

Общие результаты сравнения

Чтобы показать точность, время, специфичность, чувствительность и сравнение других параметров среди различных классификаторов, используемых в обучающем наборе.

Заключение и дальнейшая работа

Поскольку используются алгоритмы машинного обучения, такие как KNN, SVM, нейронные сети, а также различные параметры и векторы масштабирования функций, мы также увидели различное сравнение между классификаторами с точки зрения наиболее важной характеристики точности и времени. Точность может измениться, поскольку она зависит от разделения данных обучения и тестирования, и это можно дополнительно улучшить, если будет предоставлено количество данных для обучения и тестирования. Всегда есть шанс повысить точность, если размер данных увеличится. У каждого классификатора своя точность и время. Мы также можем включить тот факт, что если мощность ЦП меняется на ГП, классификатор может работать с большей точностью, с меньшим временем и лучшими результатами.

Эффективность классификатора может быть измерена с точки зрения способности правильно идентифицировать условие (чувствительность), доли истинных результатов (точность), количества положительных результатов процедуры классификации как ложноположительные (положительные прогнозы) и способности исключать состояние правильно (специфичность). В этом мы видели краткое сравнение с классификаторами машинного обучения и глубокого обучения.

До сих пор алгоритмы глубокого обучения лучше работали при распознавании рукописных цифр.

В будущих исследованиях может быть рассмотрено использование архитектуры сверточной сети, которая дала лучший результат в базе данных MNIST, а предлагаемая система распознавания реализована на основе рукописных цифр. Такая дополнительная система может быть разработана для распознавания рукописных символов, распознавания объектов, сегментации изображений, распознавания рукописного текста, распознавания языка текста, и будущие исследования также могут быть рассмотрены на аппаратной реализации в онлайн-системе распознавания цифр с большей производительностью и эффективностью с живыми результатами из живого тестового случая. сценарии.

Спасибо за то, что прочитали мою статью.
Прочтите мою публикацию о распознавании рукописных цифр с использованием машинного обучения, опубликованную в Internation Journal of Computer Science and Enginnering в июне 2018 года здесь: https://www.ijcseonline.org/spl_pub_paper/IJCSE -ETACIT-2K18-019% 20GEU.pdf

Распознавание рукописных цифр с использованием машинного обучения

Система распознавания цифр

Проблемы с рукописными цифрами

Набор данных MNIST

Доступные файлы в наборе данных

Лучшее понимание набора данных

Переход с IDX на более простой CSV

КЛАССИФИКАТОРЫ

KNN (K ближайших соседей)

Предположение

Алгоритм

Что нужно учитывать -

Функции расстояния

Команда на выполнение KNN

SVM (машина опорных векторов)

Алгоритм

Параметры настройки

Вычислительная команда

NN (нейронные сети)

Алгоритм

Собираем все вместе

Команда классификатора

CNN (сверточная нейронная сеть)

Входы и выходы

Алгоритм

Слои сверточной нейронной сети

ЭКСПЛУАТАЦИОННЫЕ МЕРЫ

Матрица путаницы

Точность

Чувствительность

Специфичность

Распространенность

Положительные предсказанные значения

Отрицательные прогнозируемые значения

Скорость обнаружения

Ожидаемая точность

Статистика каппа

Результат

Общие результаты сравнения

Заключение и дальнейшая работа

Вопросы по теме