Конференция re:Invent 2021 в Лас-Вегасе в самом разгаре, поэтому я воспользовался возможностью, чтобы быстро рассказать о том, что было нового и заслуживающего внимания в этом году в области машинного обучения.

В прошлом году экосистема Sagemaker, флагманский продукт машинного обучения AWS, была значительно обновлена ​​за счет развертывания нескольких новых сервисов, включая Data Wrangler, Feature Store и Pipelines. В этом году я бы сказал, что анонсы были более поэтапными, основанными на том, что уже является надежным, многофункциональным продуктом.

Хедлайнеры

Вот пара крупных объявлений. Начнем с Studio Lab, которая делает для AWS то же, что Colab делает для Google. Он предоставляет бесплатную среду для ноутбуков всем, а не только клиентам AWS, с доступом к графическим процессорам (важно для быстрого обучения этих моделей глубокого обучения). Вы ограничены в том, сколько вычислений вы можете получить за один сеанс — 12 часов процессора или 4 часа на графическом процессоре. Google Colab оказался чрезвычайно популярным в качестве инструмента обучения и для тех, кому нужен легкий доступ к графическому процессору, поэтому будет интересно посмотреть, сможет ли Studio Lab достичь аналогичных уровней проникновения. Это все еще в предварительном просмотре и в данный момент, так что ждите возможности пнуть шины.

Sagemaker Canvas призван вывести автоматическое построение моделей на новый уровень с нулевым кодом и визуальным интерфейсом — опять же, похожим на таблицы Google AutoML или Microsoft Azure ML Studio. Я провел быстрый дорожный тест и, честно говоря, обнаружил, что опыт немного не впечатляет. Вы можете импортировать набор данных с локального диска, из S3 или из хранилища данных, соединить таблицы, выбрать столбцы для использования в качестве функций или цели, начать обучение модели… и это почти все. Мне кажется, что Sagemaker Autopilot работает за кулисами, завернутый в немного более красивую упаковку. Вы получаете несколько хороших диагностических и оценочных экранов, когда ваша модель построена, но я считаю, что большая часть работы при построении модели всегда связана с подготовкой данных, где прямая поддержка незначительна. Очевидно, я не целевая аудитория — они говорят, что это предназначено для бизнес-аналитиков, но даже в этом случае у вас редко есть хороший чистый набор данных, готовый к моделированию, который вы можете перетащить в инструмент, такой как набор данных Titanic. . Если ваша организация не подготовилась за вас и не создала что-то вроде Feature Store, вам все равно придется использовать другой инструмент, такой как Data Wrangler или Data Brew, для выполнения черновой работы.

Перейти без сервера

Serverless Inference — менее очевидное, но потенциально более интересное дополнение для существующих пользователей Sagemaker. В то время как экосистема Sagemaker всегда направляла пользователей к пакетным выводам в режиме онлайн/в реальном времени, обещая простое развертывание одним щелчком мыши и поддержку мониторинга моделей, я часто сомневался в целесообразности использования этого для многих задач с низким трафиком. случаи. Задания пакетного логического вывода часто подходят для многих моих случаев использования и гораздо более эффективны с точки зрения затрат, хотя и требуют немного больше усилий для настройки. Однако с помощью Serverless Inference теперь вы можете получить преимущества логического вывода (почти) в реальном времени без затрат на размещение круглосуточного сервера логического вывода, так что это прогресс. В этом году на Re:invent бессерверные технологии, похоже, стали темой для обсуждения, когда были анонсированы бессерверные решения, связанные с Redshift, Kafka и EMR. Это интересный шаг для Redshift, поскольку он приближает модель ценообразования к популярному решению Google для хранилища данных BigQuery.

На конференции и ранее в этом году было объявлено о ряде других небольших постепенных улучшений с меньшей помпой, которые, на мой взгляд, повышают ценность опыта Sagemaker. Усовершенствования конвейеров, прямая интеграция с EMR, поддержка RStudio, моделей Huggingface NLP и дополнительная поддержка наборов данных временных рядов в Data Wrangler и Autopilot — все это долгожданные дополнения для профессионалов в области обработки данных.

Выводы

Благодаря тому, что GCP улучшает свою игру, запустив Vertex AI в начале этого года, а также множество новых сторонних участников, растет конкуренция за то, чтобы стать предпочтительным выбором для профессионалов в области данных. Я вижу некоторую конвергенцию между двумя облачными платформами: Studio Lab и Canvas берут лист из книги GCP, а Vertex AI является своего рода ответом на зрелый стек Sagemaker, — неудивительно, что Крейг Уайли, директор по управлению продуктами на платформе искусственного интеллекта Google раньше был частью команды Sagemaker. Но есть некоторые общие тенденции в обоих случаях, независимо от того, к какому из них вы решите прицепить свой фургон — от сквозного потребления большего количества стека науки о данных с большим упором на DevOps до открытия доступа к более широкому разнообразию. наборов пользовательских навыков за счет использования инструментов с низким/отсутствием кода, таких как Canvas.