Клуб Hult Data Analytics принял участие в 4-й ежегодной конференции Open Data Science Conference (ODSC) East 2018 1–4 мая в Бостоне на тему Будущее ИИ уже здесь.

Это были невероятные четыре дня отличных основных докладчиков и технических семинаров по последним достижениям в мире данных и машинного обучения, в которых приняли участие более 4500 человек и выступили 200 докладчиков.

Наши основные выводы из выступлений различных спикеров:

(1) ИИ переходит от «исследовательских проектов» к «инфраструктуре в масштабе». Появляется все больше инструментов и промежуточного программного обеспечения, упрощающих внедрение ИИ.

(2) Машинное обучение и ИИ прямо сейчас трансформируют многие отрасли в своей деятельности. Сказав это, мы не должны бояться ИИ, поскольку ИИ есть над чем работать.

(3) Глубокое обучение очень мощное и становится мейнстримом, но это не «волшебство» и имеет ограничения. Можно провести аналогию с кузнецом, у которого есть только молоток, который смотрит на все проблемы как на гвозди — в ящике с инструментами должен быть целый набор инструментов для решения разных задач.

(4) Управление, этика и регулирование ИИ — актуальная проблема.
— ИИ не панацея от системных проблем.

(5) Растет число проектов по науке о данных с открытым исходным кодом, направленных на то, чтобы сделать мир лучше.

В статье ниже я подробно расскажу о каждом из этих выводов.

(1) ИИ переходит от «исследовательских проектов» к «масштабной инфраструктуре» благодаря различным разрабатываемым инструментам.

Согласно выступлению Manoj Saxena на тему Победа с помощью ИИ, ИИ в его нынешнем состоянии находится на том же уровне, что и Интернет в 1999 году; 2017 год стал первым годом, когда ИИ стал мейнстримом. Пару лет назад большая часть прогресса в области ИИ была связана с исследовательскими проектами в изолированных средах, построенными в спальне какого-нибудь исследователя. Однако сейчас существует большое количество промежуточного программного обеспечения и сторонних поставщиков программного обеспечения, особенно с открытым исходным кодом, которые помогают с различными уровнями машинного обучения.

Теперь основное внимание уделяется внедрению рабочих процессов в области науки о данных и разработки программного обеспечения, таких как «операции с данными», чтобы модель ИИ могла работать и получать данные, и наоборот. Это позволяет предприятиям масштабировать ИИ, что снижает навыки, необходимые для управления моделями, работающими с распределенными данными.

Это становится все более важным, так как в настоящее время существует большой разрыв между бизнес-амбициями и исполнением, а время до получения ценности для бизнеса по-прежнему довольно велико, не говоря уже о крупных инвестициях в создание значительной группы специалистов по обработке и анализу данных. Тенденция к открытым инновациям в этих инструментах будет все больше способствовать сокращению разрыва и может позволить внутренним группам специалистов по обработке и анализу данных нацеливаться на ценные варианты использования и сокращать время на получение, обучение и масштабирование данных и моделей машинного обучения.

В настоящее время большая часть проделанной работы направлена ​​на создание более быстрых и точных классификаций и регрессий, однако это в основном создание компонентов, а не сборка общего работоспособного ИИ для решения всех наших сложных задач. Аналогия аналогична сборке рулевого колеса, коробки передач и т. д., но не сборке автомобиля целиком. Это важно знать, поскольку мы не преувеличиваем текущую технологию искусственного интеллекта сверх ее текущих возможностей, как мы обсуждаем в части 3).

Чтобы подробно остановиться на некоторых популярных инструментах, таких как Apache MXNet или библиотека Tensorflow от Google и ее Keras API, облегчают новичкам начало работы с Deep Learning. В Plotly и Matplotlib также есть бесчисленное множество руководств, которые помогут начать работу с инструментами визуализации данных, которые могут конкурировать с Tableau. Kubernetes, Kafka, mongoDB и Hadoop — распространенные имена как в быстрорастущих стартапах, так и в корпоративных компаниях, а блокнот Jupyter стал де-факто стандартом обмена документацией с действующим кодом и пояснительным текстом для руководств и результатов. Эта тенденция будет только расти, и все больше инструментов с открытым исходным кодом будут по-прежнему использоваться во многих приложениях, которые мы используем ежедневно.

(2) Машинное обучение и ИИ прямо сейчас трансформируют многие отрасли в своей деятельности.

Большинство новостей, которые мы видим об ИИ, касаются футуристической научной фантастики, такой как беспилотные автомобили и победа над лучшим игроком в го. Но что не так очевидно, так это то, насколько аналитика данных и машинное обучение уже стали обычным явлением и используются в самых разных условиях, включая повседневные бизнес-операции.

Чтобы эта аналитика машинного обучения была полезной, компания должна сначала решить проблему больших данных: объем (масштаб данных), разнообразие (структурированные или неструктурированные данные), скорость (принятие решения на основе потоковой передачи данных за доли секунды) и Правдивость (неопределенность данных) и, в конечном итоге, получение ценности от анализа данных.

Страхование

В качестве примера можно привести Александра Лазаревича из Aetna, который рассказал о том, как они используют аналитику для принятия решений в страховании и здравоохранении — отрасли, известной своей консервативностью и сложностью. Они могут обнаруживать мошеннические заявления от поставщиков, которые чрезмерно проводили косметические операции. Подход заключается в том, чтобы сначала использовать гипотезы из бизнеса для обнаружения схем мошенничества, а затем перейти к использованию контролируемых моделей для обнаружения вариантов схем мошенничества.

Другим примером является использование сигналов социальных детерминант для прогнозирования реадмиссии с такими сигналами, как количество близких друзей, район, в котором они живут, экономическая стабильность и уровень образования. Использование этих сигналов выявило значительные различия в повторной госпитализации для лиц примерно одинакового возраста и физической подготовки. Однако необходимо быть осторожным с системной предвзятостью, как мы обсуждаем в части 4) ниже.

В целом, мы должны быть осторожны, чтобы правильные проблемы решались с помощью правильных инструментов, убедившись, что проблема больших данных действительно существует, а не использовать ИИ в качестве универсального решения сложной проблемы только потому, что это «круто». '.

(3) Глубокое обучение очень мощное и становится мейнстримом, но это не «волшебство» и имеет ограничения.

В 2016 году мы видели громкий матч AlphaGo из проекта Google DeepMind против игрока в го мирового класса Ли Сидола, где AlphaGo выиграла со счетом 4–1 и, наконец, поставила точку в том, что компьютер не может победить игрока в го. . AlphaGo смогла сделать это с помощью так называемого Глубокого обучения, где она проанализировала тысячи различных любительских и профессиональных игр, чтобы научиться играть в го и выступать в высшем эшелоне игры.

С тех пор DeepMind продолжает разрабатывать новую программу AlphaGo Zero, используя усиленное обучение (RNN), что означает, что ей даже не были предоставлены какие-либо существующие игровые данные для изучения правил игры. , а вместо этого пришлось разбираться самому, играя с собой. Затем эта итерация продолжила превосходить победившую модель AlphaGo всего за 40 дней.

Для тех из вас, кто видит эти разработки в области глубокого обучения и усиленного обучения и боится, что роботы займут нашу работу, не бойтесь — ажиотаж и сила глубокого обучения имеют свои ограничения.

Согласно основному докладу Гэри Маркуса, для того, чтобы глубокое обучение стало полезным, требуется очень много данных, что ограничивает его применение. Глубокое обучение в настоящее время также имеет ограниченные возможности для переноса обучения в другие области, что требуется для ИИ общего назначения. Он также борется с открытыми вопросами и представляет собой черный ящик с тем, как он рассчитывает свои результаты, что становится все более серьезной проблемой, когда мы начинаем задаваться вопросом, как модели приходят к ответу, особенно с такими правилами, как GDPR, которые могут потребовать данные ученый объясняет решения модели. Существует также тот факт, что мы не можем полностью доверять ответу модели, как показано на изображении ниже.

Сказав все это, глубокое обучение — очень мощный инструмент, который становится все более доступным для широкой публики. Такие инструменты, как библиотека машинного обучения Google Tensorflow и ее Keras API, позволяют абстрагироваться от сложностей, которые позволяют разработчикам создавать глубокие нейронные сети всего за пару строк. Инфраструктура и инструменты с открытым исходным кодом, подобные опубликованному ранее, позволяют глубокому обучению стать более популярным. Такие проекты, как QuickDraw, добавляют наборы данных, чтобы подпитывать голодные до данных модели глубокого обучения, которые есть у Google.

Чтобы развеять мифы, глубокое обучение — это еще один способ ведения статистики, а именно классификация вещей по категориям или регрессия для прогнозного анализа, и он хорошо работает, когда обучающие данные не слишком далеки от реальных данных, на которых они будут основываться. Он отлично работает в качестве перцептивного классификатора, но в меньшей степени для естественного языка и «здравого смысла». Нам нужно будет продолжать создавать другие инструменты, чтобы убедиться, что мы можем решать сложные проблемы реального мира, для решения которых современные модели машинного обучения плохо приспособлены.

Для тех, кто все еще верит, что общий ИИ заменит нас в ближайшем будущем, обратите внимание на миллиардные инвестиции Apple в Siri:

(4) Управление, этика и регулирование ИИ являются актуальными проблемами.

С увеличением скорости развития ИИ и других технологических инноваций, таких как блокчейн, Интернет вещей и т. д., мы начинаем замечать, что наше общество вынуждено адаптироваться и идти в ногу со всеми этими изменениями. Наглядность, объяснимость и управление становятся ключевой задачей для развития ИИ без негативных последствий для общества.

Предвзятость автоматизации — это чрезмерная зависимость от автоматизированных средств и систем поддержки принятия решений. Основной докладчик Кэти О’Нил затронула этот вопрос, задав вопрос о том, увековечивают ли алгоритмы человеческие предубеждения, приведя такие примеры, как алгоритмы найма, которые учитывают исторически хорошие наймы, которые в таких организациях, как Fox News, включают в основном белых мужчин. . Более того, если эти наймы, как правило, становятся проблематичными, как в случае Fox News с обвинениями в сексуальных домогательствах со стороны его основателя и некоторых телеведущих, будет ли ИИ распространять эти атрибуты на новых сотрудников?

Один из спикеров Стефани Ким также затрагивает вопрос о том, как системы распознавания лиц могут быть предвзяты по признаку расы, особенно из-за отсутствия изображений меньшинств в наборе данных. Не смотрите дальше на проблему Google с обозначением афроамериканца как гориллы. Цели алгоритмов ИИ необходимо тщательно проанализировать, чтобы убедиться, что мы создаем инструменты, оказывающие положительное влияние.

Управление мошенническим ИИ также станет еще одной ключевой проблемой. Нам нужно поговорить о том, как убедиться, что мошеннический ИИ не выйдет в дикую природу — например, что произойдет, если тестовый бот решит, что лучший метод «тестирования отказоустойчивости» в программном обеспечении — это вывести из строя весь центр обработки данных? Эти разговоры начинают поддерживать и должны по-прежнему вызывать озабоченность, поскольку этика и соблюдение требований становятся серьезной проблемой для ИИ.

Чтобы узнать больше об этом, мы с моей командой сделали консультационную презентацию для Всемирного экономического форума в рамках нашего проекта MBA по предвзятости автоматизации в системе правосудия в Соединенных Штатах. Урок состоит не в том, чтобы использовать ИИ как панацею для борьбы с системными проблемами и надеяться на объективное решение, потому что так сказал компьютер, а в том, чтобы бороться с системными проблемами с помощью диалога различных заинтересованных сторон и гарантировать, что ИИ не усугубит проблему.

(5) Растет число проектов по науке о данных с открытым исходным кодом, направленных на то, чтобы сделать мир лучше.

Однако есть причины для оптимизма, поскольку многие выступающие в сообществе рассказывали о различных проектах, которые в настоящее время сосредоточены на положительном воздействии. Такие докладчики, как Тревор Грант, проповедник искусственного интеллекта с открытым исходным кодом в IBM, и Эрик Шелес, исследователь, который борется с торговлей людьми с помощью машинного обучения, продемонстрировали, что в настоящее время доступны достойные проекты, в которые мы все можем внести свой вклад и сделать мир лучше. лучшее место.

В целом, ODSC стал отличным событием, на котором выступили проницательные и наводящие на размышления докладчики со всего мира данных. Чтобы узнать больше об их предстоящих мероприятиях и конференциях, посетите odsc.com.

Hult — международная бизнес-школа, ориентированная на глобальное мышление, с кампусами по всему миру, в Сан-Франциско, Бостоне, Нью-Йорке, Лондоне, Дубае и Шанхае.

Hult предлагает ряд последипломных бизнес-степеней, ориентированных на меняющийся ландшафт рынка труда, включая годичный MBA, степень магистра бизнес-аналитики и степень магистра прорывных инноваций. Чтобы узнать больше, посетите http://www.hult.edu/en/masters-grade/