Высокопроизводительный подход к машинному обучению с минимальным объемом кода для специалистов по работе с данными и инженеров.

В течение прошлого года мы спокойно создавали Predibase — первую корпоративную декларативную платформу машинного обучения. При общем убеждении, что ML не должно быть так сложно внедрить на предприятии, команда основателей объединилась из Uber AI, Google и Apple и создала платформы внутри компании и с открытым исходным кодом, которые расширили доступ ML и упростили работу. через новый декларативный подход. Теперь, при поддержке наших инвесторов (Greylock, Factory и других), мы предлагаем декларативное машинное обучение и его преимущества большему количеству пользователей. Сегодня мы рады поделиться нашим видением будущего машинного обучения.

Predibase ориентирована на отдельных лиц и организации, которые пытались внедрить машинное обучение, но на каждом этапе пути заново изобретали колесо. Наш декларативный подход позволяет пользователям сосредоточиться на том, «что» в их задачах машинного обучения, предоставляя нашей системе выяснить, «как». В этом посте мы расскажем больше о нашем путешествии, ценности, которую мы приносим как крупным предприятиям из списка Fortune 500, так и быстрорастущим стартапам, а также о том, что будет дальше.

Где что-то пойдет не так сегодня

Создание решений машинного обучения на предприятии слишком медленное, слишком дорогое и слишком мало людей может этим заниматься, но так быть не должно.

Создав системы машинного обучения в больших и малых организациях, мы хорошо знакомы с процессом предоставления решений машинного обучения. Создание решения ML часто требует написания низкоуровневого кода ML, сваленного вместе с инструментами разработчика. После нескольких месяцев работы результатом обычно является индивидуальное решение, которое передается другим инженерам, часто трудно поддерживать в долгосрочной перспективе и создавать технический долг.

Мы рассматриваем это как эру машинного обучения COBOL и гордимся тем, что приближаемся к моменту машинного обучения SQL.

Это знакомая боль для большинства команд обработки данных и машинного обучения, с которыми мы разговаривали. Но руководители организаций, занимающихся наукой о данных, разочарованы как тем, что им приходится иметь дело с этим, так и несколькими платформами без кода / с низким кодом, которые утверждают, что решают эту проблему. Эти платформы обещают упрощение построения моделей, но не обеспечивают правильного баланса между простотой использования и контролем для устойчивого использования инженерами и специалистами по данным. К сожалению, реальность такова, что когда команды используют эти продукты, им часто сложно создать что-то большее, чем прототип.

На наш взгляд, ключ в том, чтобы выбрать правильную абстракцию, которая обеспечивает простой нестандартный опыт, поддерживает все более сложные варианты использования и позволяет пользователям повторять и улучшать свои решения.

Как только будет получена удовлетворительная модель, она должна быть готова к запуску в производство без дополнительных инженерных усилий. Но благодаря опыту нашей команды в работе с платформой машинного обучения Michelangelo от Uber и Vertex AI мы воочию убедились, как даже сложные организации машинного обучения изо всех сил пытаются превратить модели из исследований в производство.

Инструменты, созданные для масштабирования (Spark, Airflow, Kubeflow), — это не те инструменты, которые созданы для экспериментов. Путь наименьшего сопротивления в большинстве групп специалистов по обработке и анализу данных заключается в загрузке некоторого подмножества данных на локальный ноутбук и обучении модели с использованием некоторого объединения библиотек Python, таких как Jupyter, Pandas и PyTorch. Такие модели обычно бросают через стену инженерам машинного обучения, которым поручено запустить их в производство, но в конечном итоге процесс полностью переписывает рабочий процесс специалиста по данным.

Мы разработали новую идею декларативных систем машинного обучения для решения этих проблем и применили ее в Uber и Apple, где она повысила производительность и снизила затраты, сделала ее доступной с открытым исходным кодом, и мы, наконец, выводим ее на более широкий корпоративный рынок.

Декларативные системы машинного обучения: LEGO для машинного обучения

Основная идея декларативных систем машинного обучения состоит в том, чтобы позволить пользователям указывать целые конвейеры моделей в качестве конфигураций и преднамеренно выбирать те части, которые им нужны, при автоматизации остальных. Как и упрощенная ИТ-инфраструктура как код, эти конфигурации позволяют пользователям сосредоточиться на том, «что», а не на том, «как», и могут значительно увеличить доступ при одновременном снижении времени окупаемости.

Мы независимо друг от друга внедрили декларативные системы машинного обучения: Людвиг в Uber и Овертон в Apple. Людвиг обслуживал множество различных приложений в Uber, начиная от автоматизации поддержки клиентов, обнаружения мошенничества и рекомендаций по продуктам, в то время как Овертон обрабатывал миллиарды запросов в нескольких приложениях Apple. Обе платформы сделали машинное обучение более доступным для заинтересованных сторон, особенно для инженеров, и значительно ускорили темпы проектов.

За последний год мы удвоили наши усилия в Ludwig в области открытого исходного кода.

Ludwig упрощает определение конвейеров глубокого обучения с помощью гибкой и простой системы конфигурации на основе данных, подходящей для самых разных задач. В зависимости от типов схемы данных пользователи могут создавать и обучать конвейеры современных моделей одновременно на нескольких модальностях.

Написать файл конфигурации для Ludwig несложно, и он предоставляет пользователям готовые передовые методы машинного обучения без ущерба для контроля. Пользователи могут выбирать, для какой части конвейера они хотят заменить новые элементы, в том числе выбирать среди самых современных архитектур моделей и параметров обучения, решать, как предварительно обрабатывать данные и запускать поиск гиперпараметров, и все это с помощью простых изменений конфигурации. Этот декларативный подход увеличивает скорость разработки, упрощает улучшение качества модели за счет быстрой итерации и упрощает воспроизведение результатов без необходимости написания сложного кода.

Один из наших пользователей с открытым исходным кодом назвал создание конфигураций Ludwig «LEGO для глубокого обучения». Мы сами не могли бы сказать лучше.

Но, как известно любой команде машинного обучения, обучение модели глубокого обучения — не единственная трудная часть. Создание инфраструктуры для операционализации модели от данных до развертывания часто является еще более сложной задачей. Вот тут-то и появляется предибаза.

Predibase — Привнесение декларативного машинного обучения в предприятие

Мы запустили Predibase, чтобы вывести на рынок преимущества декларативных систем машинного обучения с помощью платформы корпоративного уровня. В Predibase пользователи делают три ключевые вещи:

  1. Подключение данных: пользователи могут легко и безопасно подключать свои структурированные и неструктурированные данные, хранящиеся в любом месте облачного стека данных.
  2. Декларативное создание моделей: пользователи могут предоставлять конфигурации конвейера моделей и запускать их в масштабируемой распределенной инфраструктуре для эффективного обучения моделей так же легко, как и на одном компьютере.
  3. Внедрение моделей: пользователи могут с высокой эффективностью развертывать конвейеры моделей одним нажатием кнопки и немедленно запрашивать их.

Видение Predibase состоит в том, чтобы объединить всех заинтересованных сторон организаций, занимающихся данными и ИИ, в одном месте, упрощая сотрудничество между учеными данных, работающими над моделями, инженерами данных, работающими над развертыванием, и инженерами по продуктам, использующими модели. Давайте посмотрим на функции, которые мы добавили поверх наших основ с открытым исходным кодом, которые делают это возможным.

Интегрированная платформа, от данных до развертывания

Predibase обеспечивает самый быстрый путь от данных до развертывания, не срезая при этом никаких углов. Подключайтесь напрямую к своим источникам данных, как к структурированным хранилищам данных (например, Snowflake, BigQuery, Redshift), так и к неструктурированным озерам данных (например, S3, GCS, Azure Storage). Любая модель, обученная в Predibase, может быть развернута в рабочей среде без изменений кода и настроена на автоматическое переобучение по мере поступления новых данных. развернуты на производстве.

Передовая инфра безболезненно

Predibase представляет собой настоящую облачную бессерверную инфраструктуру машинного обучения, созданную на основе Horovod, Ray и Kubernetes. Мы предоставляем возможность автоматического масштабирования рабочих нагрузок в системах с несколькими узлами и несколькими графическими процессорами экономичным способом, адаптированным к модели и набору данных. Все это дает возможность объединить высокопараллельную обработку данных, распределенное обучение и оптимизацию гиперпараметров в единую рабочую нагрузку и поддерживает как высокопроизводительное пакетное прогнозирование, так и прогнозирование в реальном времени с малой задержкой через REST.

Новый способ итеративного моделирования

Декларативная абстракция, которую использует Predibase, позволяет пользователям очень легко модифицировать конвейеры моделей, просто редактируя их конфигурации. Predibase отслеживает производительность и качество по мере обучения моделей и поддерживает пользователей в рабочих процессах итерации моделей, отслеживая происхождение между моделями и данными, на которых они обучаются. Определение моделей в виде конфигураций позволяет нам в сжатой форме отображать различия между версиями моделей с течением времени, что упрощает их итерацию и улучшение. Вот тут-то и появляется наша уникальная альтернатива AutoML: вместо проведения дорогостоящих экспериментов Predibase предлагает пользователю лучшие последующие конфигурации для обучения в зависимости от уже проведенных исследований, создавая эффективный цикл улучшений.

Поддержка нескольких пользователей с помощью PQL

С появлением современного стека данных также выросло число специалистов по данным, знакомых с SQL. Итак, наряду с нашим Python SDK и пользовательским интерфейсом, мы также представляем PQL — Predictive Query Language — как интерфейс, который приближает машинное обучение к данным. Используя PQL, пользователи могут использовать Predibase для подключения данных, моделей обучения и выполнения предиктивных запросов, используя синтаксис, подобный SQL, с которым они уже знакомы. Мы видим будущее, в котором пользователи будут запускать и совместно использовать прогностические запросы так же часто, как сегодня они используют аналитические запросы.

Наши планы

В настоящее время Predibase доступна только по приглашению, поскольку мы масштабируем нашу платформу, но нам повезло работать с несколькими клиентами, от компаний из списка Fortune 500 до стартапов и из разных отраслей, включая банковское дело, здравоохранение и высокие технологии. Если вы заинтересованы в том, чтобы попробовать Predibase в своей организации, пожалуйста, запросите демонстрацию, и мы будем более чем рады показать вам нашу платформу.

В ближайшие месяцы ожидайте получать от нас более частые сообщения, поскольку мы публикуем более подробную информацию о нашей платформе и о том, как вы можете ее использовать или принять участие. Параллельно мы также удвоим наши проекты с открытым исходным кодом — в частности, Ludwig, где вы можете ожидать вскоре увидеть несколько интересных новых обновлений. Присоединяйтесь к нам в Slack, если хотите следить за нами в сообществе, и следите за последними обновлениями в блоге Predibase!

О нас

Основатели

  • Пьеро Молино, генеральный директор — Пьеро – генеральный директор, ранее занимавшийся исследованиями в области машинного обучения и одним из основателей организации Uber AI, где он создал Ludwig – декларативную среду глубокого обучения с открытым исходным кодом, которая сейчас ядро предибазы.
  • Трэвис Аддер, технический директор — Трэвис является техническим директором, опираясь на опыт руководства группой обучения глубокому обучению на платформе Uber Michelangelo, где он был соавтором Horovod — распределенная среда обучения глубокому обучению с открытым исходным кодом.
  • Девврет Риши, главный директор по продуктам. – Дев является директором по продукту, обладающим академическим образованием в области машинного обучения и предыдущим опытом работы менеджером по проектам в Firebase, Google Assistant и Google Cloud AI Platform, где он также был первым менеджером по продуктам для Kaggle — крупнейшее в мире сообщество машинного обучения.
  • Крис Ре, соучредитель. Профессор Крис Ре является соучредителем, который возглавляет исследовательскую группу машинного обучения Hazy в Стэнфорде. промышленность.

Команда

Мы гордимся командой разработчиков платформы Predibase, состоящей из исследователей машинного обучения, инженеров и дизайнеров продуктов из ведущих технологических компаний, таких как Amazon, Google, Apple, Uber и других. Наша команда работала над системами машинного обучения от исследований до производства, и мы рады представить наш новый подход более широкой аудитории. Мы набираем сильных кандидатов в области инженерии и выхода на рынок, поэтому, пожалуйста, свяжитесь с нами, если вы заинтересованы!