Сегодняшняя статья немного тяжелее со стороны менеджмента/стратегии, но, тем не менее, дает представление о том, куда предположительно пойдет лидерство в отрасли.

Первая часть написана нашими друзьями-консультантами по стратегии из McKinsey: «Масштабирование ИИ, как технический специалист» [1]. Здесь мы видим признание того, что, как и в случае с большими данными, исходная модель науки о данных (и, вероятно, вместе с ней роль ученого-единорога) и модель внедрения машинного обучения были непродуманными для большинства компаний, поскольку они возникли из области крупных технологий Кремниевой долины. Это означает, что ваша обычная компания, вероятно, не (i) имеет доступ к типу талантов, которые есть у компании FANG, (ii) бюджет также не безграничен и (iii) организационные процессы являются простыми, прозрачными, целеустремленными и гибкими. Следовательно, развертывание собственного технологического стека, открытие его исходного кода и доведение его до зрелости корпоративного уровня вместе с сообществом открытого исходного кода в рекордно короткие сроки может на самом деле не подойти вам.

Для этого, чтобы успешно внедрить или внедрить возможности Data Science или Machine Learning (ML) в организацию, организации должны думать о Data Science и ML как о технологиях общего назначения, которые преобразуют данные специалиста (сгенерированные вашим специалистом по данным или инженером по ML) в стандартный вывод. (операционная вычислительная модель, полезная для вашей организации) и управляются специальным операционным персоналом — инженером MLOps.

И в то время как MLOps — это удачное сочетание все же некоторого охлаждения ИТ-шума — объединение принципов машинного обучения и операций разработки, MLOps означает важный сдвиг во взглядах на машинное обучение. То есть уберите искусство и веру из науки о данных и вместо этого примените научный принцип. То есть повторяемость или идемпотентность при согласованности ввода. Именно эта сосредоточенность на искусстве привела к прошлым проблемам воспроизводимости и потере веры в потенциал этой технологии, которая, согласны вы с ее преобразующей природой или нет, уже успешно применяется в самых разных областях.

Следовательно, принятие принципов и подходов, которые должна была разработать разработка программного обеспечения, чтобы стать зрелой областью, — это то, что в конечном итоге представляет собой MLOps — разработку современного программного обеспечения для машинного обучения, включая такие элементы, как:

  • Абстракция аппаратных и программных стеков через облако, контейнеризацию и инфраструктуру как код
  • Контроль версий кода и данных
  • Тестирование программного обеспечения
  • Автоматическое создание артефактов, упаковка, непрерывная интеграция и развертывание для проверки жизненного цикла вашего решения.
  • а также инструментирование и мониторинг во время выполнения, чтобы понять, как работает ваше решение.

среди прочего.

Если подумать, это что-то кардинально новое? Вы удивитесь — нет! Но для того, чтобы прийти к этому осознанию, потребовалось время, по крайней мере, на цикл ажиотажа. И это заняло так много времени, потому что в области машинного обучения (автоматическая разработка программного обеспечения на основе данных) просто не было словаря и инструментов для выражения повторяющихся требований, таких как

  • Что вы должны думать о модели машинного обучения в общем жизненном цикле создания решения
  • Что можно и как проверить
  • Как вы должны реагировать на изменения в вашей спецификации требований (дрейф данных и концепций)
  • Как вы должны доставить и развернуть свое творение

И хотя в статье рассматривается несколько аспектов этой основной потребности — она в основном сводится к фордовскому разделению труда и принципу роботизированной сборочной линии — анализировать и иметь доступ к нужным инструментам и талантам для конкретной работы. Закончится ли на этом путь к науке о данных и машинному обучению корпоративного уровня? Наверняка нет, чтобы это произошло, его нужно будет продвигать дальше, сделать более доступным для людей, которые действительно имеют значение! Думайте как о доступном самообслуживании, добиваясь повышения производительности, скрывая слухи о том, что в игре есть какая-то форма эвристики, основанной на данных. Сосредоточьтесь не на своем блестящем аспирантском отделении машинного обучения, а на парнях и девушках, которые определяют бизнес!

Как может подтвердить любой практикующий ML, область ML всегда стремится решить следующую великую вещь, которая может приблизить нас либо к AGI, либо, по крайней мере, к предполагаемому прокси-серверу СМИ, то есть к приемлемому баллу в тесте Тьюринга. Следовательно, неудивительно, что машинное обучение было занято решением проблемы саморазрешения, то есть созданием машин, которые занимаются разработкой программного обеспечения (нейронные машины Тьюринга, вспомогательное и автоматизированное написание кода с помощью GPT3), машинным обучением и, возможно, в какой-то момент в будущем. четное ….

Ясно, что это оказывается полезным для решения некорректно поставленной проблемы нехватки талантов в машинном обучении. В своей нынешней модели индустрия в целом ищет фабрику кандидатов с количественным образованием в докторантуре (любая наука), которых они могут использовать для создания новейших и лучших моделей машинного обучения [2]. Поэтому неудивительно, что мы обращаемся к самому машинному обучению, чтобы сократить разрыв в нехватке кадров с помощью таких методов, как AutoML. То есть, когда тяжелая артиллерия (вычисления и данные) используется, чтобы не полагаться на знание предметной области и человеческую изобретательность, а применяется (крайне необходимый) структурированный процесс в течение (длительного) периода времени для получения некоторой (возможно, средней производительности) модели. . Согласно Hürtgen et. ал,

Как можно догадаться, ведется много дискуссий о том, что можно или нужно автоматизировать, когда дело доходит до разработки моделей. Тем не менее, ясно одно: эволюция инструментов AutoML приводит к радикально новому взгляду на науку о данных, расширяя ее возможности, включая бизнес-экспертов с обширными знаниями предметной области, базовыми навыками обработки данных или готовностью их изучить, а AutoML обучение, а не только наполнение команды опытными специалистами по данным.

Как уже упоминалось, хотя это не является радикально новым и не будет продвигать SOTA в полевых условиях, это очень необходимо для роста. Так почему же мы не сделали этого раньше? Нам не хватало вычислительных мощностей, накопления опыта и полевой зрелости (да, мы написали компиляторы-фреймворки, такие как LLVM), доверия и воодушевления по поводу применимости ML в качестве инструмента решения проблем (помимо классификации кошек, мы видим релевантное использование случаи) и общее опасение компаний, не являющихся FANG, подвергать эту модель испытанию. Так мы уже там? Нет, совсем нет. Во многих организациях мы все еще можем видеть ошибку, заключающуюся в том, чтобы инвестировать в ученого-единорога, тогда как наем талантов, ориентированных на предметную область / бизнес, вместе с акцентом на доступность AutoML (или MLOps как услуги), вероятно, был бы более рентабельным. Но является ли это долгожданным прогрессом — безусловно!

То, что сфера науки о данных и машинного обучения далеко не остывает, можно увидеть в обзорной статье этого года, которую Мэтт Терк регулярно выпускал в течение последних нескольких лет [3]. Поскольку с каждым годом область и ее ландшафтные попытки становятся все больше и больше, он придумал новый общий термин MAD, который охватывает триумвират данных, ИИ и машинного обучения. Это отличное (но длинное) чтение, которое абстрагирует то, что происходит в настоящее время, от

  • функциональная доставка
  • инвестиционная возможность
  • и создание продукта

перспектива в этой области. Он рассказывает о том, как развивалась область за прошедший период, каковы ключевые события и каковы вероятные тенденции в ближайшем будущем.

Ссылки

[1] Масштабирование ИИ как технолога: роль генерального директора, Корбо Дж., Хон Н., Джаванмардиан К. и Хан Н.

https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/scaling-ai-like-a-tech-native-the-ceos-role

[2] Переосмысление стратегии талантов ИИ по мере того, как автоматизированное машинное обучение достигает совершеннолетия, Хюртген Х., Керхофф С., Любачовски Дж. и Мёллер М.

https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/rethinking-ai-talent-strategy-as-automated-machine-learning-comes-of-age

[3] Мэтт Турк, Red Hot: ландшафт машинного обучения, ИИ и данных (MAD) 2021 г.

https://mattturck.com/data2021/