Мое путешествие в мир искусственного интеллекта: обучение с учителем и обучение без учителя

#BreakIntoAI — часть 2

Прежде чем мы начнем, вот некоторая терминология, которую мы будем использовать в этой статье:

Входные данные: данные или группа данных (набор данных), предоставленные алгоритму в рамках процесса обучения. Алгоритм использует входные данные для прогнозирования и/или принятия решений на основе шаблонов и взаимосвязей, которые он извлек из данных. Пример: Задача: классификация фруктов; Входные данные: Картофель; Метка: не фрукт…
Ярлык/вывод: если на обучающих данных, это правильный ответ для этих данных. Если не на обучающих данных, то это ответ, который ИИ ожидает от этих данных. При обучении с учителем набор данных состоит из множества входных данных и соответствующих меток, где метка является правильным выходным сигналом для данного входного сигнала. Пример: Задача: классификация фруктов; Входные данные: оранжевый; Ярлык: это фрукт!
Обучение. Используйте данные или набор данных, чтобы научить алгоритм обучения выполнять определенную задачу. Во время обучения алгоритму обучения предоставляется набор входных данных и соответствующих меток или выходных данных.Он учится связывать закономерности во входных данных с правильными выходными данными.

В прошлой статье я объяснил, почему я хочу начать изучать ИИ и почему важно, чтобы все узнали о нем, будь то создание ИИ, который поможет решить некоторые проблемы, понять, как работают новые технологии ИИ или иметь возможность говорить об этике ИИ.

Моя последняя статья на Medium:

Важность изучения ИИ: мое личное путешествие и почему вы должны присоединиться ко мне
#BreakIntoAIsenatauro.medium.com

На этот раз, погрузившись в мир ИИ, я начал изучать два основных типа машинного обучения: обучение с учителем и обучение без учителя.

Контролируемое обучение

Вы помните, когда вы были в школе, и учитель математики читал лекцию о Бхаскаре (посмотрите на формулу ниже), сначала обучая примерами, результаты которых он знал, а затем давал вам упражнения для решения? Можно сказать, даже если очень натянуто, что это контролируемое обучение.

Учитель будет учить на примерах (ввод), что он уже знает результат (метка/вывод), чтобы вы могли его изучить. После того, как вы научитесь использовать Бхаскару, вы сможете решить любое упражнение (ввод) и узнать результат (метка/выход), даже для упражнений, которые вы никогда не видели.

Обучение с учителем похоже на это, когда алгоритм обучения(учащийся) получает входной набор данных(примеры) с знаком метки/ вывод(результаты). После обучения он может получать неизвестные входные данные (упражнения, пройденные учителем) и выдавать результат на основе того, чему он научился!

Применительно к машинному обучению обучение с учителем можно разделить на два основных типа:

Классификация
Регрессия

Обучение под наблюдением: регрессия

Регрессионный тип обучения с учителем направлен на прогнозирование значения в пределах неограниченного диапазона возможностей. Представьте, что вы пытаетесь предсказать топливную экономичность автомобиля на основе его веса и объема двигателя. Вы можете начать с получения информации об автомобилях и их весе, объеме двигателя и расходе топлива. Имея эти данные, вы можете использовать регрессионный алгоритм для изучения взаимосвязи между весом, объемом двигателя и топливной экономичностью автомобилей. Как только алгоритм изучит эту взаимосвязь, вы сможете использовать его для прогнозирования топливной экономичности нового автомобиля на основе его данных.

Например, если у вас есть автомобиль весом 2000 фунтов и объемом двигателя 2,5 литра, алгоритм может предсказать эффективность использования топлива около 30 миль на галлон. Конечно, фактическая топливная экономичность автомобиля может отличаться из-за других факторов, таких как размер шин, аэродинамика и стиль вождения. Однако алгоритм регрессии обеспечит хорошую оценку на основе шаблонов, которые он изучил из обучающих данных.

Обучение с учителем: классификация

Тип классификации обучения с учителем направлен на прогнозирование категориальной метки или класса для заданных входных данных в рамках ограниченного количества меток. Представьте, что вы пытаетесь научить компьютер распознавать разные виды фруктов. Вы можете начать с показа изображений яблок, апельсинов, бананов и других видов фруктов вместе с надписями, указывающими, что представляет собой каждое изображение. Компьютер научится распознавать закономерности в изображения, соответствующие различным типам фруктов, и его можно использовать для классификации новых изображений фруктов как принадлежащих к одной из категорий ярлыков.

Это в основном то, как задачи классификации работают в обучении с учителем. Вы даете компьютеру набор помеченных примеров, и он учится классифицировать новые точки данных на основе изученных шаблонов. Некоторые примеры задач классификации включают обнаружение спама (является ли это электронной почтой спамом или нет?), анализ настроений (является ли этот текст положительным, отрицательным или нейтральным?) и обнаружение мошенничества (является ли эта финансовая транзакция мошеннической или нет?).

Обучение с учителем: преимущества и ограничения

Главное преимущество обучения с учителем заключается в том, что оно позволяет достичь очень высокой точности в широком диапазоне задач при обучении на большом и разнообразном наборе данных. Это делает его популярным для многих реальных приложений, таких как классификация изображений, распознавание речи и обработка естественного языка.

А алгоритмы обучения под наблюдением также могут быть просты в реализации, особенно если задача четко определена и входные данные хорошо -структурировано. Это может упростить начало обучения с учителем, особенно для новичков в области ИИ.

Но это еще не все преимущества обучения с учителем. Одно из основных ограничений обучения с учителем заключается в том, что для его эффективности требуется большой объем размеченных данных. Сбор и маркировка этих данных может занять много времени и денег, что в некоторых случаях препятствует использованию обучения с учителем.

Кроме того, производительность алгоритма обучения с учителем может ухудшиться, если входные данные значительно отличаются от обучающих данных. Например, если модель машинного обучения создана для классификации кошек и собак и обучена только на изображениях кошек и собак, но потом видит самолеты, она не будет работать хорошо.

Неконтролируемое обучение

В повседневной жизни большинство из нас любит слушать музыку. Лично я люблю слушать рок, поп и немного самбу. Тем не менее, мне не всегда нравится слушать каждую музыку в одном плейлисте. Иногда мне нравится слушать более энергичную музыку, иногда более спокойные песни, иногда более танцевальные мелодии и т. д.

Чтобы я мог слушать определенные типы музыки (энергичная, спокойная, танцевальная и т. д.), мне нужно сгруппировать музыку, которая мне нравится, по определенным типам на основе некоторой информации, содержащейся в музыке, такой как BPM, жанр, инструменты и т. д. С этой информации, я могу объединять похожие виды музыки в одну группу, имея возможность создавать списки воспроизведения для каждого настроения, которое я хочу.

Неконтролируемое обучениетакже работает таким образом, когда алгоритм обучения(я) получает входной набор данных(много музыки) без какой-либо метки(без плейлиста) и необходимо сгруппировать похожие входные данные в одну группу на основе входных характеристик (установить похожую музыку в один и тот же плейлист).

Для обучения без учителя существует 3 основных типа:

Кластеризация
Обнаружение аномалий
Уменьшение размерности

Неконтролируемое обучение: кластеризация

Кластеризация позволяет вам выявлять шаблоны в данных и группировать похожие точки данных вместе, даже если у вас нет предопределенных меток или категорий для работы. с. Это делает его полезным инструментом для обнаружения взаимосвязей в данных, которые могут быть не очевидны сразу.

Однако алгоритмы кластеризации могут быть чувствительны к начальным условиям и могут давать разные результаты в зависимости от порядка обработки данных. Кроме того, может быть сложно определить подходящее количество кластеров для использования в заданном наборе данных, поскольку слишком малое количество кластеров может не отразить сложность данных, а слишком большое количество кластеров может привести к избыточной подгонке.

Несмотря на эти ограничения, кластеризация остается популярным методом обучения без учителя и может быть мощным инструментом для обнаружения закономерностей и взаимосвязей в данных.

Неконтролируемое обучение: обнаружение аномалий и уменьшение размерности

Эти 2 типа слишком велики, чтобы их можно было объяснить в статье, в которой уже упоминаются другие концепции, поэтому в будущем я посвящу статью каждому из этих типов. Но вкратце о них:

Обнаружение аномалий: метод, используемый для выявления необычных или неожиданных шаблонов в данных, которые могут указывать на проблему или проблему. Он широко используется в различных приложениях, включая кибербезопасность, обнаружение мошенничества и контроль качества. Например, алгоритм обнаружения аномалий может использоваться для выявления необычных моделей сетевого трафика, которые могут указывать на кибератаку, или для выявления необычных моделей финансовых транзакций, которые могут указывать на мошенническую деятельность.
Уменьшение размерности. Процесс уменьшения количества измерений (входных слоев) в наборе данных при сохранении как можно большего количества информации. Это может быть полезно для визуализации многомерных данных или уменьшения вычислительной сложности алгоритма. Например, вы можете использовать алгоритм уменьшения размерности, чтобы уменьшить набор данных из 100 объектов до нескольких ключевых объектов, которые охватывают наиболее важные закономерности в данных.

Неконтролируемое обучение: преимущества и ограничения

Основное преимущество неконтролируемого обучения заключается в том, что мы можем использовать неразмеченные данные в качестве входных данных. Алгоритм неконтролируемого обучения сделает все возможное, чтобы понять характеристики данных и то, как сгруппировать/найти аномалии/уменьшить информацию.

Однако неконтролируемое обучение может быть сложным для интерпретации, так как результат не всегда четко определен или помечен. Может быть трудно понять, что алгоритм извлек из данных. И для его эффективности требуется большой объем данных, поскольку он полагается на выявление шаблонов и взаимосвязей в данных. Это может быть ограничением, если у вас нет доступа к большому и разнообразному набору данных.

В дополнение ко всему этому, алгоритмы обучения без учителя могут быть чувствительны к начальным условиям и могут давать разные результаты в зависимости от порядка обработки данных. Это может затруднить получение согласованных результатов и сравнение производительности различных алгоритмов.

Заключение

Ну вот и первые понятия, которые я узнал об ИИ и уже о них пишу! Лично мне это хорошо, и я считаю полезным писать эти статьи, чтобы помочь мне сохранить информацию в моем мозгу и стать справочным руководством для меня в будущем.

О методах обучения: обучение с учителем и обучение без учителя — это два важных типа машинного обучения, которые имеют широкий спектр применений в области искусственного интеллекта. Из этой статьи вам нужно понять две вещи о машинном обучении ИИ:

1. Обучение с учителем используется для обучения алгоритма обучения на наборе данных с известными метками/выходными данными и позволяет достичь высокой точности в широком диапазоне задач.

2. Обучение без учителя, с другой стороны, используется для выявления закономерностей и взаимосвязей в данных без необходимости помечать выходные данные.

Оба типа обучения имеют свои преимущества и ограничения, и выбор правильного типа обучения для данной задачи будет зависеть от конкретных потребностей и целей вашего проекта.

Если у вас есть группа данных с соответствующими метками и вам нужно классифицировать эти данные или получить результат, вы можете использовать метод обучения с учителем.

Если вам нужно выполнить кластеризацию, найти аномалии или у вас есть гигантский объем данных, которые нужно уменьшить, вы можете использовать обучение без учителя.

На этом я завершаю эту статью о контролируемом и неконтролируемом обучении в моем путешествии по изучению ИИ. В следующей статье будет более практичный разговор о линейной регрессии!

Надеюсь, вам понравилось это читать!