Рассказы о том, что может сделать ИИ - уничтожить нас, заменить человеческих работников, достичь сингулярности - вот уже несколько десятилетий захватывают воображение человечества. В последние годы мы стали свидетелями того, как оживают более реалистичные приложения: определение опухолей, беспилотные автомобили и т. Д. Некоторые считают, что ИИ принесет огромные положительные блага, другие (например, Илон Маск), которые считают, что это может быть величайшим достижением человечества. угроза. Но какую бы сторону вы ни выбрали, мы все согласны в одном: искусственный интеллект коренным образом изменит человеческое общество навсегда.

Но одна вещь, о которой вообще не говорят, - это то, чего она не будет делать. Для всех замечательных приложений ИИ есть некоторые вещи, которые он не изменит. Одна из них - идея о том, что ИИ по своей сути ведет к монопольным рынкам, где несколько компаний являются лидерами рынка и съедают всех остальных. Теория утверждает, что технический барьер для входа на рынок ИИ настолько высок, что только ведущие компании могут позволить себе оплачивать таланты в больших масштабах, в то время как цикл сбора данных → передача данных в модели ИИ → создание продуктов на основе данных → сбор больше данных ведет к маховику компаундирования, когда богатые становятся еще богаче. На первый взгляд аргумент имеет смысл: модели требуют данных для достижения более высокого порядка точности, и, поскольку традиционные операторы находятся в лучшем положении для сбора данных, они могут создавать более точные модели, чем новички. Точные модели, в свою очередь, позволяют сотрудникам создавать более качественные продукты, чем все остальные, что дает им возможность собирать еще больше данных, тем самым подпитывая этот цикл.

Известный технолог, венчурный капиталист и исследователь ИИ Кай-Фу Ли резюмирует эту точку зрения в своей книге AI Superpowers:

«… ИИ естественным образом стремится к экономике, в которой победитель получает все. Связь глубокого обучения с данными создает благоприятный круг для усиления лучших продуктов и компаний: чем больше данных, тем лучше продукты, которые, в свою очередь, привлекают больше пользователей, которые генерируют больше данных, которые еще больше улучшают продукт. Такое сочетание данных и денежных средств также привлекает лучших специалистов по ИИ в ведущие компании, увеличивая разрыв между лидерами отрасли и отстающими ».

Аргумент основан на трех фундаментальных предположениях: 1) сотрудники могут собирать собственные данные в течение длительного периода времени 2) взаимосвязь между большим объемом данных и лучшими моделями масштабируется линейно или сверхлинейно и 3) затраты на инженеров ИИ останутся высокими. к ограниченному предложению. Однако есть три точки данных, которые опровергают эти предположения:

  • Рост массового использования ИИ / данных
  • Уменьшение отдачи от сбора дополнительных данных
  • Барьер, препятствующий тому, чтобы стать инженером искусственного интеллекта, уменьшается

Рост коммерциализированного ИИ / данных

Почему ведущие компании, такие как Google и Tencent, так далеко продвинулись в области ИИ, чем все остальные? Одна из причин заключается в том, что техническая база ограничена: по оценкам Tencent, во всем мире работает 300 000 инженеров ИИ, но есть миллионы незаполненных вакансий. До недавнего времени компании, которым не хватало капитала для привлечения талантов, не могли успешно очищать свои данные, не говоря уже о их моделировании. Но есть целый ряд компаний, в том числе Google, которые подпадают под то, что я называю Коммодитизированный ИИ и данные. По мере роста спроса на сбор данных и искусственный интеллект будут создаваться платформы, которые превращают эти высокотехнологичные инструменты в товар, чтобы организации любого размера и с техническими возможностями могли получить к ним доступ, подобно тому, как AWS превратила облачные вычисления в товар. Google движется в этом направлении со своими продуктами AI / ML, но многие стартапы тоже работают в этом направлении. Например, Clarifai предлагает мощный механизм компьютерного зрения, к которому компании могут получить доступ с помощью своего API, а стартапы по созданию синтетических данных, такие как MostlyAI и Tonic, создают репрезентативные наборы данных для компаний, которым требуется больше данных для обучения своих алгоритмов. Эти компании не обязательно должны быть компаниями ИИ, поскольку некоторые рынки выиграют от эффектов второго порядка распространения ИИ. Segment и Snowflake - отличные примеры - обе компании помогают клиентам управлять своими данными систематизированным образом, не ставя в первую очередь ИИ, и оцениваются соответственно в 1,5 и 3,9 миллиарда долларов.

Одно из наиболее значительных преимуществ, которые, по утверждению Кай-Фу, есть у ведущих компаний, - способность непрерывно собирать конфиденциальные данные - может не стать таким искаженным преимуществом в ближайшем будущем. Генерация синтетических данных - это создание искусственных данных в целях тестирования и улучшения моделей искусственного интеллекта. Элементарный способ сделать это - записать, как распределяются реальные данные, а затем извлечь числа из распределения случайным образом. Сложные проблемы, очевидно, потребуют более продвинутых методологий, но, как вы можете видеть на карте выше, стартапы уже предлагают создание данных как услугу. Этот метод уже используется такими компаниями, как Waymo и Tesla, для моделирования автономного вождения. По состоянию на июль 2019 года у Waymo было 10 миллиардов смоделированных миль и только 10 миллионов физических миль, что демонстрирует масштабируемость и скорость моделирования данных.

Подводя итог, можно сказать, что сбор, управление и использование данных с каждым днем ​​становится все проще: методы генерации синтетических данных делают соответствующие данные легкодоступными, единороги, такие как Segment и Snowflake, упрощают управление данными в 10 раз, а Clarifai и Google упрощают интеграцию AI с ваш технический стек в 10 раз.

Уменьшение отдачи от сбора большего количества данных

В своей знаменитой статье о недостатках рвов данных в корпоративном программном обеспечении инвесторы Andreessen Horowitz Мартин Касадо и Питер Лаутен отметили, что:

«Но даже с учетом масштабных эффектов, по нашим наблюдениям, данные редко бывают достаточно надежными. В отличие от традиционной экономии на масштабе, когда экономика фиксированных авансовых инвестиций может со временем становиться все более благоприятной с увеличением масштабов, прямо противоположная динамика часто проявляется с эффектами масштабирования данных: стоимость добавления уникальных данных в ваш корпус может фактически возрасти, в то время как ценность дополнительных данных снижается! »

Монополистический взгляд на данные как на ров предполагает, что добавление дополнительных данных сверхлинейно увеличивает ценность вашего продукта, делая ваши модели более точными. Это верно для некоторых потребительских товаров, где ИИ может резко усилить сетевые эффекты (например, Tiktok), но в большинстве других случаев стоимость сбора и очистки растущих объемов данных либо остается постоянной, либо возрастает, в то время как дисперсия, фиксируемая новыми данными, уменьшается. В конце концов, кривая выгоды от сбора большего количества данных плато, а в некоторых случаях может даже уменьшиться.

Другой способ подумать об этом, если вы знакомы с машинным обучением, - это подумать о Анализе главных компонентов (PCA). Наибольшая дисперсия сосредоточена в первых нескольких главных осях, поэтому предельная ценность использования, скажем, четырех главных осей по сравнению с пятью главными осями может быть незначительной. Фактически, в зашумленных наборах данных вполне вероятно, что первые несколько основных осей захватывают большую часть сигнала, в то время как на более поздних осях преобладает шум. Точно так же незначительное преимущество добавления дополнительных данных достигает точки, когда дополнительные данные становятся все более избыточными. Другими словами, сбор данных становится жертвой степенного закона / распределения Парето в такой же степени, как и любые другие явления: данные чрезвычайно важны для создания точных моделей до определенного момента, после чего сбор в 10 или даже 100 раз большего количества данных незначительно улучшает модель на финансовые и альтернативные затраты на расширение до других функций или рынков. ИИ - это просто средство для достижения цели; Конечная цель - оптимизация взаимодействия с пользователем и добавление ценности, а не сама модель.

Вспомните первые два предположения теории ИИ-ведет к рынкам-монополиям? Во-первых, руководители могут собирать собственные данные в течение длительного периода времени, а во-вторых, взаимосвязь между большим объемом данных и лучшими моделями масштабируется с линейной или сверхлинейной скоростью. Я утверждаю, что компании, занимающиеся ИИ / данными как товаром, уменьшат важность первого допущения, снизив барьер для входа в интеллектуальные данные, а во-вторых, что более важно, наличие большего количества данных на самом деле не приведет к успеху. к лучшим моделям после определенного момента.

Барьер, препятствующий тому, чтобы стать инженером ИИ, резко уменьшается

Если услуги AI / Data-as-a-Commodity упрощают технические компоненты управления и построения моделей AI, что это значит с техническим барьером для входа на рынок ИИ-инженера? Что ж, давайте воспользуемся программной инженерией в качестве аналогии.

Если бы вы хотели научиться создавать мобильное приложение на заре iPhone, что бы вы делали? Скорее всего, вы купили несколько толстых книг по программированию на C ++, пытались нанять репетитора, который сам научился делать это шесть месяцев назад, и рылись в запутанной документации в Интернете.

Перенесемся на десятилетие вперед, и многое изменилось. Теперь вместо того, чтобы читать затхлые путеводители и нанимать дорогих репетиторов, есть богатая библиотека онлайн-курсов (многие из которых бесплатны). Вместо того, чтобы изо всех сил пытаться отладить подробную документацию, у StackOverflow есть ответы почти на каждую ошибку, которую вы могли бы совершить как новичок. Более того, существуют решения SaaS, PaaS и IaaS, такие как AWS и Heroku, которые позволяют невероятно легко визуализировать, тестировать, размещать и запускать приложения без каких-либо проблем.

Я утверждаю, что та же историческая закономерность будет происходить и с ИИ. В Интернете уже есть много бесплатных курсов (course.fast.ai, на Udemy и т. Д.), И они будут только увеличиваться и улучшаться. Вдобавок взгляните на любую из компаний, занимающихся AI / Data-as-a-Commodity, которые я перечислил на диаграмме выше, и вы увидите, что они уже оснащают кодировщиков мощными инструментами для управления данными и включения ИИ.

«Но вы просто расширяете нижнюю часть воронки», - можете возразить вы. «Количество великих инженеров ИИ на вершине не сильно изменится». Я бы полностью не согласился с этим (увеличение доступности позволяет большему количеству людей занимать должности, позволяющие добиться успеха, и, следовательно, относительное число наверху также увеличится), но я опровергаю этот момент собственными словами Кай-Фу. Помните, вот что он сказал о том, почему технический талант является частью монополистических тенденций ИИ:

«… Такое сочетание данных и денежных средств также привлекает лучших специалистов по ИИ в ведущие компании, увеличивая разрыв между лидерами отрасли и отстающими».

Справедливый. А теперь давайте посмотрим, что он говорит о теории и применении позже в книге:

«В основе ошибочного убеждения, что Соединенные Штаты имеют большое преимущество в области ИИ, лежит впечатление, что мы живем в эпоху открытий, время, когда элитные исследователи ИИ постоянно ломают старые парадигмы и, наконец, ломают долго- постоянные загадки. Это впечатление подпитывается постоянным потоком захватывающих дух репортажей в СМИ, объявляющих о последнем подвиге, совершенном ИИ: диагностировать определенные виды рака лучше, чем врачи, победить человеческих чемпионов в тяжелой игре в Техасский холдем, научить себя осваивать новые навыки. без вмешательства человека. Учитывая этот поток внимания СМИ к каждому новому достижению, случайному наблюдателю - или даже эксперту-аналитику - простительно поверить в то, что мы постоянно открываем принципиально новые горизонты в исследованиях искусственного интеллекта. Я считаю, что это впечатление обманчиво. Многие из этих новых вех - это, скорее, просто применение достижений последнего десятилетия - в первую очередь, глубокого обучения, но также и дополнительных технологий, таких как обучение с подкреплением и перенос обучения - к новым проблемам. То, что делают эти исследователи, требует больших навыков и глубоких знаний: способности настраивать сложные математические алгоритмы, манипулировать огромными объемами данных, адаптировать нейронные сети к различным задачам. Для этого часто требуется опыт на уровне доктора философии в этих областях. Но эти достижения представляют собой постепенные улучшения и оптимизации, которые используют значительный скачок вперед в глубоком обучении. Это эпоха внедрения, и компаниям, которые наживаются на этом периоде времени, потребуются талантливые предприниматели, инженеры и менеджеры по продуктам ».

Он продолжает:

«Обучение успешным алгоритмам глубокого обучения требует вычислительных мощностей, технических талантов и большого количества данных. Но из этих трех наиболее важным в будущем будет объем данных. Это потому, что как только технический талант достигает определенного порога, он начинает показывать убывающую отдачу. За пределами этой точки все зависит от данных. Алгоритмы, настроенные средним инженером, могут превзойти алгоритмы, созданные ведущими мировыми экспертами, если средний инженер будет иметь доступ к гораздо большему количеству данных ».

Элитный талант искусственного интеллекта позволит существующим операторам сохранить доминирующее положение на рынке. Но они также не имеют значения, потому что мы живем в эпоху внедрения, когда данные важны, а средние инженеры справятся с этим? Эти два утверждения противоречат друг другу. Способность привлекать и удерживать талантливых людей является частью любого устойчивого рва, но, как показывает сам Кай-Фу, в эпоху искусственного интеллекта это не более важно, чем в предыдущие эпохи. Сейчас это может казаться таким, потому что талантов ИИ мало, но, как мы уже отмечали, барьеры для обучения и внедрения ИИ уменьшаются. Кроме того, динамика рынка будет гарантировать, что все больше и больше людей будут специализироваться в этой области, точно так же, как более широкая популяция специалистов CS удвоилась в период с 1997 по 2014 год. Китай, страна, которая обещала стать мировым лидером в области ИИ к 2030 году, открывается. 400 школ в 2019 году, специально посвященных искусственному интеллекту, большим данным и робототехнике. Регуляторные стимулы также будут играть большую роль в ускорении роста талантов в области ИИ, и в сочетании с уменьшением технических барьеров для входа количество квалифицированных инженеров будет меньшей проблемой, чем многие думают.

Это подводит нас к концу. Если наши три позиции верны, это: 1) сбор данных / управление / ИИ упрощаются и превращаются в товар; 2) В большинстве случаев больше данных не лучше; 3) Становится все проще стать инженером ИИ и внедрять инструменты интеллектуального анализа данных, таким образом увеличивая количество инженеров и снижая затраты - тогда мы делаем вывод, что ИИ сам по себе не приводит к появлению рынков, где победитель получает все. Монополии создаются благодаря тому, что они становятся лучшими в своем классе по многим параметрам: таланты, данные, распределение, продукт и распределение капитала. Крах любого действующего президента одинаков: во-первых, они разбогатеют. Затем они устраиваются поудобнее. Затем они умирают. ИИ - средство для достижения цели; не позволяйте ему ослеплять вас от выхода на новые рынки и поиска новых.