Автор: Дхайрья Далал, инженер НЛП

Обзор

Добро пожаловать в серию Posh's AI Academy! К концу лета и началу занятий в школе Posh’s AI Academy поможет вам узнать больше о технологиях искусственного интеллекта и машинного обучения, а также о том, как они могут решать бизнес-задачи. Не требуется докторская степень! В следующих нескольких статьях блога мы познакомим вас с ключевыми концепциями и технологиями искусственного интеллекта с их корпоративными приложениями.

Сначала мы расскажем об искусственном интеллекте и машинном обучении. К концу этого сообщения в блоге вы лучше поймете, что такое искусственный интеллект и машинное обучение, включая их ключевые технические концепции и то, как они подходят для работы на предприятии.

Краткая история ИИ

Так что же такое ИИ? С академической точки зрения это обширная область исследований, охватывающая философию, когнитивную науку, прикладную математику, информатику и многие другие дисциплины. Область искусственного интеллекта направлена ​​как на понимание, так и на создание интеллектуальных сущностей. Хотя вопросы об интеллекте и разумности восходят к древним философам, ИИ как академическая дисциплина был официально учрежден в 1956 году на семинаре, проведенном в Дартмутском колледже.

Ранние исследования ИИ были сосредоточены на разработке экспертных систем, которые состояли из базы знаний и механизма вывода. Эти решения с трудом могли масштабироваться из-за нехватки вычислительных ресурсов и значительного количества человеческих усилий, необходимых для сбора, организации и хранения знаний в формате, который мог бы использоваться механизмами вывода.

Большинство современных решений искусственного интеллекта представляют собой приложения моделей машинного обучения и глубокого обучения. Многие модели и технологии, которые используются сегодня в решениях ИИ, существуют с 1950-х годов. Последние достижения в области вычислительной обработки и больших данных сделали эти модели удобными и пригодными для промышленного использования. В результате появилось много интересных приложений. У вас есть ИИ, открывающий новые лекарства для лечения COVID, ведение фейковых блогов, торговля на фондовом рынке, вождение общественного транспорта и даже создание рэп-текстов. По мере того как фундаментальные исследования ИИ продвигаются быстрыми и, казалось бы, экспоненциальными темпами, появляются новые и интересные приложения.

Корпоративное определение ИИ

Так что после всего этого вы все еще можете задаваться вопросом: что же такое ИИ? Академическое определение ИИ охватывает множество различных исследовательских проблем. Чтобы согласовать ИИ конкретно с корпоративными сценариями использования, я хотел бы предложить следующее определение:

Решения искусственного интеллекта позволяют принимать ситуативные решения в масштабе, чтобы поддерживать оптимальные бизнес-результаты.

Это определение направлено на то, чтобы отделить цель ИИ-решения от его реализации, которая может включать в себя сочетание моделей, логики и инженерных функций. Я также предпочитаю это определение, поскольку оно выделяет три ключевых понятия, которые делают ИИ ценным для предприятия: контекст, масштаб и цель.

Если бы бизнес-логику можно было легко выразить и жестко запрограммировать, решение ИИ было бы одновременно избыточным и излишне сложным. По иронии судьбы исходные экспертные системы часто использовали сложные вложенные структуры if-else в своих механизмах вывода для преобразования бизнес-правил в прогнозы решений. Несмотря на свою эффективность, эти решения было утомительно создавать и сложно обновлять по мере изменения бизнес-правил или появления более сложных сценариев.

Решения искусственного интеллекта также предлагают ценность в масштабе, когда традиционно принимать решения дорого из-за затрат на человеческие ресурсы и / или ресурсы. По мере того, как решения AI масштабируются вместе с данными и их использованием, предельные затраты на решения снижаются. Наконец, решения AI ценны, когда они предназначены для решения конкретных бизнес-задач. В одном из следующих постов мы представим структуру, которая поможет сформулировать бизнес-задачи для решений ИИ.

Ключевые концепции ИИ

Общие термины и словарь

В этом разделе мы собираемся получить более техническую информацию и познакомиться с некоторыми ключевыми концепциями. Как упоминалось ранее, решения AI не являются монолитными и часто состоят из моделей и инженерных функций. Начнем с концепции модели. Модель - это математическая функция или набор функций, основная цель которых - делать прогнозы. Учитывая набор входных данных (которые могут быть текстом, изображениями, табличными данными и т. Д.), Модель выдаст выходные данные. Выходные данные, как правило, представляют собой непрерывные или дискретные значения, которые могут представлять такие вещи, как цены, температура, тональности, темы новостей и многие другие категории прогнозов. Это подводит нас к нашей первой ключевой концепции искусственного интеллекта: представлению.

Модели AI работают только с числовыми значениями. Такие входные данные, как текст, изображения и видео, необходимо преобразовать в какое-то числовое представление, которое модель может обработать. Аналогичным образом, если ожидаемый результат является дискретным (например, метка положительного или отрицательного настроения), его также необходимо сопоставить с числовым представлением.

Если сделать шаг назад, то ключевой задачей при разработке решения AI является, прежде всего, понимание того, как представить проблему в модели. Распространенный подход - определение аналогичных задач. Например, представьте, что вы хотите создать веб-службу, которая определяет породы собак по загруженным изображениям пользователей. Эта проблема подробно исследовалась в научной литературе по ИИ и известна как классификация изображений. В одной из следующих статей мы продолжим исследовать общие задачи ИИ при обработке естественного языка и компьютерном зрении, которые могут быть полезны при постановке существующих бизнес-проблем.

Источник: https://medium.com/@hari4om/word-embedding-d816f643140

Возвращаясь к концепции представления и ввода, следующая идея, на которой я хочу сосредоточиться, - это возможности ввода. Функция - это еще один способ описания конкретных типов входных данных, которые мы предоставляем нашим моделям. Традиционно характеристика - это измеримое свойство наблюдаемого явления. Например, экономисты могут использовать коэффициент Джини (показатель неравенства благосостояния) и ВВП страны в своих экономических моделях. В моделях AI концепция функций немного более свободна и охватывает широкий диапазон числовых представлений. Например, текст можно представить в виде списка значений с плавающей запятой, известного как встраивание слов (который мы рассмотрим подробнее в следующей публикации). Изображения могут быть представлены в виде плоского списка значений пикселей RGB.

Чем машинное обучение и глубокое обучение отличаются от традиционных подходов к моделированию, так это тем, что машина может научиться (с помощью процесса, называемого обучением) тому, как лучше всего использовать входные функции, чтобы делать точные прогнозы. Методы машинного обучения часто называют черными ящиками, потому что сложно определить взаимосвязь между входными функциями и прогнозами модели. Напротив, социолог или медицинский исследователь будет глубоко заботиться о входных данных (обычно называемых независимыми переменными) и понимании их отношения к прогнозируемой зависимой переменной. Влияет ли ВВП страны на неравенство в благосостоянии или может ли конкретный ген подавлять рак? Несмотря на отсутствие объяснимости, модели машинного обучения ценны в корпоративных условиях, потому что они могут научиться делать высокоточные прогнозы для различных сценариев использования. Также продолжаются исследования объяснимости, которые направлены на лучшее расшифровку и контекстуализацию прогнозов, сделанных моделями машинного обучения.

«Обучение» в машинном обучении / глубоком обучении

Это подводит нас к нашему самому важному понятию: обучение. Центральное место в машинном обучении и глубоком обучении занимает обучение - это процесс, с помощью которого модель обучается делать прогнозы. Это также процесс того, как модель становится «интеллектуальной».

Существует три * парадигмы первичного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.

Источник: https://www.kdnuggets.com/2017/11/3-different-types-machine-learning.html

Самый успешный подход к обучению - обучение с учителем. Контролируемое обучение используется для выявления рака при медицинском сканировании, определения настроения отзывов о продуктах, фильтрации спама и многих других сценариев использования. Контролируемое обучение предполагает получение размеченных данных. метки или категории вывода должны быть известны заранее и предоставлены модели. Затем модель обучается на помеченных примерах. В процессе обучения модели предоставляется несколько примеров каждой категории, и после каждого прогноза модель проверяет точность по меткам обучения и соответственно обновляется. В наших примерах классификации пород собак на этикетках будут указаны конкретные породы собак. Модель будет снабжена несколькими изображениями, скажем, гончих и немецких овчарок. Во время этого обучения и с помощью этих примеров модель узнает ключевые особенности, которые могут помочь отличить гончих от немецких овчарок.

Следующая категория обучения известна как обучение без учителя. Ключевое различие между обучением с учителем и обучением без учителя заключается в том, что модели заранее не известны ярлыки или категории, которые необходимо предсказать при обучении. Обучение без учителя ищет основные закономерности в предоставленных ему данных и генерирует кластеры на основе обнаруженных сходств. Затем пользователь (обычно эксперт в предметной области) должен разобраться в сгенерированных кластерах и пометить кластеры. Примером обучения без учителя является анализ темы. Представьте, что у вас есть куча новостных статей и вы хотите их систематизировать. Тематический анализ будет пытаться сгруппировать статьи на основе общих слов и ключевых фраз и генерировать такие темы, как спорт, финансовые новости и политика. Неконтролируемое исследование часто используется для исследовательских сценариев использования или предварительного шага в организации немаркированных данных. Часто это не так эффективно, как обучение с учителем, поскольку модели заранее не известны категории, наиболее полезные для пользователя. Однако обучение без учителя является наиболее многообещающим, поскольку у большинства предприятий нет данных с маркировкой качества.

Последняя категория - обучение с подкреплением. Обучение с подкреплением оказалось большим успехом в победе над чемпионом по го, продвижении беспилотных автомобилей и роботизированном управлении. В системе обучения с подкреплением агент пытается узнать, как оптимально выполнить задачу в определенной среде. Обучение с подкреплением значительно отличается от двух вышеуказанных стратегий обучения. Обучение с подкреплением требует среды, определенного пространства действий и способности агента фиксировать полную или частичную информацию о состоянии окружающей среды на каждом временном шаге. Агент учится, пытаясь максимизировать функцию внешнего вознаграждения.

Машинное обучение против глубокого обучения

Теперь, когда вы понимаете некоторые ключевые термины и концепции, лежащие в основе моделей искусственного интеллекта, давайте посмотрим на разницу между машинным обучением и глубоким обучением. Машинное обучение состоит из различных алгоритмов и моделей с настраиваемыми гиперпараметрами. Гиперпараметры позволяют настраивать модель, чтобы она наилучшим образом соответствовала предоставленным обучающим данным, чтобы делать точные прогнозы. Кроме того, специалист по машинному обучению потратит время на тщательный выбор, нормализацию и определение того, какие входные функции полезны для создания обобщаемых прогнозов. Этот процесс известен как извлечение признаков и часто может быть больше искусством, чем наукой. Общие модели машинного обучения включают в себя: логистическую регрессию, машины опорных векторов, наивный байесовский метод, случайные леса и повышение градиентного дерева.

Глубокое обучение - это подраздел машинного обучения, в котором основное внимание уделяется использованию искусственных нейронных сетей (также известных как нейронные сети). Нейронные сети, вдохновленные нейронами мозга, представляют собой граф вычислительных узлов (нейронов). Каждый узел принимает входные данные, выполняет математическую операцию и выдает выходные данные, которые, в свою очередь, передаются в другой нейрон. Нейроны организованы в «слои», каждый из которых выполняет различное преобразование информации, проходящей через него. «Глубокое» в глубоком обучении относится к множеству скрытых слоев в нейронной сети.

В отличие от машинного обучения, глубокое обучение не требует извлечения функций или настройки гиперпараметров. Различные уровни модели глубокого обучения учатся извлекать функции и делать точные прогнозы. Возьмем, к примеру, наш классификатор собак. Традиционно для распознавания изображений требовались функции, вычисляемые вручную, такие как сегментация черт лица (глаза, нос, уши и т. Д.). Из изображения были извлечены различные компоненты, а затем модель узнала, какие комбинации сегментов и конкретные свойства сегментов (контраст, контур, форма и т. Д.) Соответствуют различным породам собак. В модели глубокого обучения вы передаете только изображение, и различные слои учатся извлекать из изображения элементы, которые лучше всего помогают модели различать породы. Хотя сложно определить, что именно изучает каждый слой, мы можем визуализировать выходные данные слоя. Эти визуализации показывают, что слои учатся автоматически улавливать различные подсказки изображения, такие как форма носа и ушей и расположение глаз.

Нейронные сети теоретически являются универсальными аппроксиматорами функций и могут изучать любую непрерывную функцию при наличии достаточного количества данных. Глубокое обучение приобрело популярность в последние несколько лет и часто является подходом по умолчанию для большинства моделей искусственного интеллекта. Это связано с тем, что модели глубокого обучения надежны, могут обрабатывать большие объемы данных и публиковать самые современные результаты практически для всех задач. Большие модели, обученные на больших наборах данных, в конечном итоге работают очень хорошо. Например, недавняя языковая модель OpenAI GPT-3 состоит из 96 слоев и 175 миллиардов параметров! Эта модель вызвала много шума из-за ее способности писать новостные статьи, писать код для создания веб-сайтов и делать многие другие интересные вещи.

Однако у глубокого обучения есть ограничения. Обучение может быть очень дорогостоящим, требуя огромного количества графических процессоров и вычислительных ресурсов. GPT-3 Open AI был обучен на 570 ГБ данных и стоил 12 миллионов долларов на обучение. Хотя большинство моделей глубокого обучения не так дороги, они обычно требуют ресурсов графического процессора и значительных объемов помеченных данных.

Заключение

Спасибо, что задержались. Надеюсь, вы лучше понимаете ИИ и некоторые его ключевые концепции. В ходе AI Academy мы углубимся во многие из этих идей. В следующих статьях вы узнаете больше о диалоговом ИИ и НЛП, о том, как сформулировать бизнес-задачи для решений ИИ, и о многом другом, интересном на стыке ИИ и предприятия.

Если у вас есть отзывы или предложения, напишите нам по адресу [email protected]!

Дополнительные ресурсы

Стремление к машинному обучению: отличная книга, написанная Эндрю Нг, знакомящая с машинным обучением для предприятий

Основные тенденции цикла рекламы искусственного интеллекта Gartner, 2019 г.