Все эти словечки…. AI, ML, глубокое обучение, трансферное обучение?!

Внедрение управления продуктом на основе ИИ многим кажется пугающим. В этой статье я познакомлю вас с несколькими ключевыми понятиями, с которыми вам следует ознакомиться.

Создание продуктов ML/AI часто кажется волшебством и сложной техникой. Я слышу вас по двум причинам. Во-первых, даже сегодня большинство доступных курсов по AI/ML ориентированы на инженеров и специалистов по данным. И, во-вторых, многие продакт-менеджеры, которых вы видите и встречаете в этой области, вероятно, имеют инженерное образование.
Но если вы знакомы с управлением продуктами в целом и у вас аналитический склад ума, более чем реально перейти к этой специализации, если вы сохраняете любопытство.

Искусственный интеллект

Короче говоря, ИИ относится к системам или машинам, которые имитируют человеческий интеллект — для выполнения задач, которые обычно делают люди.

Вопрос. Какой образ первым приходит вам на ум, когда вы думаете об ИИ?

Скорее всего, это сценарий с роботом — и, если вы смотрели много научно-фантастических фильмов, вы, вероятно, думаете об очень антиутопической версии, в которой роботы захватывают мир у людей. Но область ИИ очень широка и может проявляться по-разному, не только в роботах.

Сценарий антиутопии будет содержать так называемый Общий искусственный интеллект (AGI) или Искусственный суперинтеллект (ASI). Это довольно теоретическая форма ИИ, в которой машина или система будет иметь интеллект, равный человеческому или даже превосходящий его. Это было бы самоосознающее сознание, способное решать проблемы.

Искусственный интеллект, который окружает нас сегодня, — это искусственный узкий интеллект (УНИ). Это ИИ, обученный выполнять достаточно специфические задачи. Примеры задач:

Визуальное восприятие. Это область, в которой системы извлекают информацию из фотографий, видео и многого другого. Возможно, вы сталкивались с функциями искусственного интеллекта в виде тегов фотографий в социальных сетях, но распространенными другими областями являются рентгенологические изображения в здравоохранении или беспилотные автомобили в автомобильной промышленности.
Распознавание речи. Это область, в которой системы пытаются понять человеческую речь и воздействовать на нее. Примерами, с которыми вы, возможно, сталкивались, являются продукты для преобразования речи в текст (т. е. автоматически генерируемые субтитры на YouTube) или виртуальные домашние/мобильные помощники (например, Google Home или Siri). Технология, которая позволяет компьютерам читать и интерпретировать человеческий язык, называется обработкой естественного языка (NLP). Чат-боты, заменяющие агентов-людей, то есть в колл-центрах, — еще одно применение этой технологии.
Принятие решений/Экспертные системы. Это область, в которой система использует обширные данные, чтобы предложить решение. В страховой отрасли ИИ применяется для андеррайтинга или обработки претензий (для более простых претензий). Например, в финансовом мире ИИ используется для выявления потенциально мошеннических транзакций.

На этом этапе я также хочу опустить два термина, связанных с целью создания продуктов AI/ML, поскольку некоторые из приведенных мной примеров уже намекают на них:

Автоматизация: цель состоит в том, чтобы заменить определенные задачи, выполняемые людьми, с помощью ИИ (например, центры обработки вызовов или роботы в сфере логистики).
Дополнение: цель состоит в том, чтобы помочь людям в их задачах (т. е. автоматическая проверка орфографии при написании электронного письма или документа).

Машинное обучение

Сегодня наиболее распространенной формой искусственного интеллекта, с которой вы, как конечный пользователь, сталкиваетесь в потребительских продуктах, является МАШИННОЕ ОБУЧЕНИЕ С КОНТРОЛЕМ. Это означает, что система научилась предсказывать результат из заданного диапазона входных данных — без программирования того, как это делать. Есть два распространенных метода:

Типичным примером является система, которая научилась предсказывать, является ли животное на фотографии кошкой или нет, что называется проблемой классификации. Обычный вариант использования такой проблемы — для видеопорталов. Они используют системы для обнаружения чрезвычайно жестоких видео или спам-видео и скрытия их на платформе от пользователей.
Инженеры обучают эти системы, показывая машине большой список примеров или фотографий кошек и фотографий без кошек — размеченных данных ( т. е. фото А — кошка, фото Б — не кошка, фото С — кошка). Для каждой фотографии в наборе данных система видит не только результат (кот/не кот), но и множество свойств (называемых признаками) фотографии (размер, цвет каждого пикселя, тип камеры, дата, …). Как и мы, люди, система выводит некоторые неизвестные закономерности из этих свойств, чтобы сделать вывод, что это кошка / это не кошка.
Регрессия — это еще один тип метода обучения с учителем — здесь система учится предсказывать не просто метку (кот/не кот), а числовое значение. Варианты использования в бизнесе включают, например, прогнозирование выручки от продаж или прогнозирование цен на авиабилеты на определенный месяц.

Помимо обучения с учителем, есть еще две общие концепции машинного обучения, которые вам следует знать:

При обучении без учителя система получает неразмеченные данные. Из этих данных можно обнаружить некоторые скрытые закономерности без какого-либо вмешательства человека (отсюда и «без присмотра»). Примеры функций, которые вы можете знать из социальных сетей: статьи, связанные с этой, клиенты, купившие эту книгу, также купили,эти фильмы популярны в вашем регионе, …
При обучении с подкреплением машина учится методом проб и ошибок. В процессе обучения каждый раз, когда система совершает действие, она получает либо награду, либо штраф. Система обычно обучается максимизировать общее вознаграждение. Примеры в финансовой отрасли включают автоматическую торговлю — функция вознаграждения, скорее всего, основана на убытке или прибыли от каждой финансовой операции.

Глубокое обучение

Глубокое обучение — это специализированное подмножество машинного обучения, которое в последние годы набрало огромные обороты — в основном благодаря возросшим вычислительным мощностям и возможностям обработки данных, которые доступны сегодня.

Одним из ключевых алгоритмов машинного обучения являются искусственные нейронные сети (ИНС). Как следует из названия, дизайн таких сетей вдохновлен биологической нейронной сетью человеческого мозга. Сеть нейронов получает вход, обрабатывает этот вход в слоях нейронов (и синапсов, которые их соединяют) и обеспечивает выход.
Концепция глубокого обучения просто относится к нейронной сети с множеством скрытых слоев. Эти сети способны обрабатывать огромные объемы в основном необработанных входных данных очень эффективными способами почти в режиме реального времени, чтобы предсказать определенный результат. С точки зрения бизнеса и продукта это означает, что это открывает возможности, которые были невозможны несколько лет назад, например, для создания беспилотных автомобилей или виртуальных помощников.

Вероятно, одним из самых важных достижений в области глубокого обучения является появление переносного обучения. Эта концепция заслуживает отдельной статьи, но вкратце она относится к использованию предварительно обученных моделей в качестве отправной точки. точку для обучения другой модели новой задаче. Это в основном интересно, потому что это означает, что вы можете сэкономить много времени и ресурсов при создании новой модели, поскольку вам не нужно начинать с нуля.

Большие данные

Выше я уже упоминал, что машинному обучению с учителем требуется много входных данных. Проще говоря, большие данные — это… большие данные, занимающие не только гигабайты, но и террабайты. Большие данные обычно описываются в форме 4V.

Наборы данных настолько объемны, что традиционное программное обеспечение для обработки данных не может хранить и обрабатывать их. Примеры: Нью-Йоркская фондовая биржа обрабатывает более 1 ТБ данных в день, сайты социальных сетей — более 500 ТБ. в день.

Большие данные также бывают более разнообразными / более сложными. Три ключевых понятия здесь:

структурированные данные: это типичные наборы данных, с которыми мы наиболее знакомы, например таблица клиентов (имя клиента, адрес, номер телефона).
неструктурированные и полуструктурированныеданные: неструктурированные данные обычно представляют собой данные в необработанном виде (без какой-либо предварительной обработки) или данные, содержащие некоторую комбинацию простых текстовых файлов. , изображения, видео и т. д. Полуструктурированные данные представляют собой смесь структурированных и неструктурированных данных. Проблема с неструктурированными данными заключается в том, что

В-третьих, для больших данных актуальна также концепция скорости передачи данных — это скорость, с которой данные принимаются и обрабатываются. Например, большинство продуктов для социальных сетей работают в режиме реального времени или почти в реальном времени — они требуют обработки данных в реальном времени.

Облачные вычисления

Поскольку я перечисляю большие данные, я также хочу перечислить концепцию облачных вычислений, поскольку они позволяют использовать многие современные продукты на основе ИИ, особенно продукты B2C, с которыми вы знакомы. Облачные вычисления — это предоставление вычислительных услуг, включая серверы, хранилища, базы данных, сети, программное обеспечение, аналитику и т. д., через Интернет («облако»). Обычно эти услуги имеют тарифы с оплатой по мере использования, предлагая вам использовать и покупать эти услуги только по мере необходимости. Это помогает предприятиям снижать свои операционные расходы, передавать инфраструктуру на аутсорсинг и масштабировать (или уменьшать масштаб) по мере изменения бизнеса.

Анализ данных и наука о данных

Я намеренно объединяю обе концепции в один заголовок, причина в том, что эти две концепции часто используются взаимозаменяемо, а также определения ролей во многих компаниях значительно пересекаются.

В общем, это область исследования, которая сочетает в себе опыт предметной области, навыки программирования и знания математики и статистики для извлечения значимых и действенных идей из данных. Результатом (проще говоря) обычно является не продукт или функция продукта, а документ, слайд-презентация или информационная панель, которые можно использовать для внедрения инноваций и принятия деловых и продуктовых решений.
Исследователи данных часто работают с неструктурированными или частично структурированными данными и настраивают более сложные сервисы и инструменты обработки данных для обработки больших объемов данных. Они также могут применять алгоритмы машинного обучения или прогнозное моделирование, чтобы извлечь новые идеи из этих данных.
Аналитики данных обычно работают с более структурированными данными.

Ответственный ИИ и этика ИИ

Большинство терминов, которые я объяснил в этой статье, связаны с инженерной стороной дела. Часто продукты AI/ML влияют на жизнь вокруг нас в гораздо большем масштабе, чем традиционные продукты (вспомните продукты для социальных сетей). Тем не менее, создание этих продуктов на основе AI/ML сопряжено с новыми проблемами, с которыми вы, возможно, не столкнетесь при создании других программных продуктов. Три самые важные проблемы, о которых вы чаще всего читаете, — это предвзятость, отсутствие объяснимости и нарушения конфиденциальности.

Во многих статьях и сообщениях в Интернете термины «наука о данных», «аналитика данных» и «машинное обучение» — это термины, которые часто используются как синонимы, когда речь идет об осмыслении данных. Точно так же люди используют термины AI, ML и глубокое обучение как синонимы. Технически это неправильно.
Практически для случайного человека, которого вы встретите на улице, эти различия не имеют большого значения.

Однако, если вы хотите проникнуть в управление продуктами ИИ, более глубокое понимание этих концепций является ключом к хорошему общению с вашей командой инженеров и заинтересованными сторонами. Надеюсь, я немного помог разжечь ваше любопытство и больше не чувствовать себя слишком перегруженным самой распространенной терминологией.

Следите за новостями, чтобы не пропустить новые статьи, посвященные управлению продуктами на основе ИИ и более ответственному созданию продуктов на основе ИИ — для всех пользователей по всему миру.