Бесплатные области с высоким уровнем сигнала, чтобы получить качественный контент для MLOps

Эта история, которую я написал, была первоначально опубликована DataCamp и опубликована здесь: https://www.datacamp.com/blog/10-awesome-resources-for-learning-mlops.

MLOps сочетает в себе инструменты, практики, приемы и культуру, которые обеспечивают надежное и масштабируемое развертывание моделей машинного обучения. Начните свое обучение с этих замечательных бесплатных ресурсов.

Что такое МЛОпс?

Что такое МЛОпс?

В 2015 году Google выпустил исследовательскую работу под названием Скрытый технический долг в системах машинного обучения. В этой статье Скалли и соавт. подчеркнул, что кодирование прогнозных моделей машинного обучения — это небольшая часть создания, развертывания и обслуживания систем машинного обучения в производственной среде. Документ вызвал шок во всей области и с тех пор был проверен бесчисленными случаями ученых, занимающихся данными, изо всех сил пытающихся внедрить свои модели в производство.

За последние несколько лет появилась захватывающая новая категория MLOps (Machine Learning Operations) с целью решения проблем развертывания, с которыми сталкиваются команды, работающие с данными. MLOps, или операции машинного обучения, — это набор инструментов, практик, методов и культуры, которые обеспечивают надежное и масштабируемое развертывание систем машинного обучения. По мере того как наука о данных развивается как область, MLOps становится одной из самых, если не самой быстрорастущей специализацией, которую могут выбрать специалисты по данным.

Учитывая, насколько зарождается поле MLOps, существует не так много систематизированных путей обучения. Несмотря на это, сообщества открытого исходного кода и машинного обучения предоставили множество бесплатных ресурсов, к которым может подключиться каждый, которые невероятно надежны и сразу же полезны. Вот 10 бесплатных ресурсов, которые вы можете начать сегодня, чтобы начать свое обучение MLOps.

1. Инженерия машинного обучения, Андрей Бурков.

Первоначально выпущенная в 2020 году, эта книга — одна из немногих, в которых рассматриваются основы прикладного машинного обучения. Вместо того, чтобы сосредоточиться на каком-либо инструменте или концепции, Бурков раскрывает искусство и науку создания и развертывания комплексного проекта машинного обучения. На протяжении всей книги он выделяет наиболее распространенные проблемы, с которыми сталкиваются группы обработки данных при развертывании моделей машинного обучения в производственной среде, и их решения.

Вы можете получить доступ к книге бесплатно, поскольку она следует принципу «сначала прочитайте, потом купите» — это означает, что вы можете прочитать ее и заплатить после, если вы получили от нее пользу.

2. Машинное обучение в производственном блоге

Некоторые из лучших ресурсов по MLOps сегодня можно найти в информационных бюллетенях и блогах активных специалистов по данным. Блог ML in Production и информационный бюллетень Луиджи Патруно являются лучшими примерами этого. Он регулярно делится информативным контентом о развертывании и обслуживании моделей в производственной среде. Вот как он описывает свой подход к кураторству:

  • Прикладной — контент сосредоточен на инструментах, шаблонах, платформах и системах, которые доказали свою эффективность в производственной среде.
  • Ориентация на передовой опыт. Наука о данных и машинное обучение быстро меняются. Не хватает людей, обладающих необходимыми навыками для развертывания этих систем, и отсутствуют устоявшиеся передовые методы. Информационный бюллетень призван донести эти передовые методы до более широкого сообщества.
  • Направлено на то, чтобы сделать специалистов по данным более эффективными в своей работе. Весь курируемый контент направлен на то, чтобы помочь специалистам по данным, инженерам по машинному обучению и специалистам по обработке данных получить и улучшить высокоэффективные, востребованные на рынке навыки.

3. Сообщество MLOps

Изучать MLOps лучше всего вместе и с практикой. Это сообщество друзей-практикующих, к которому вы можете подключиться (или присоединиться) и учиться у других опытных практикующих в этой области. Из блогов, видео и увлекательных бесед этот ресурс — отличный способ закрепиться в этом пространстве.

4. Глубокое обучение с полным стеком

Этот курс содержит одни из самых качественных материалов, помогающих научиться внедрять сложные большие модели в производство. Его не только преподают известные профессора, такие как инженеры и ученые из OpenAI и Стэнфорда, но вы также можете найти гостевые лекции от лидеров, возглавляющих некоторые из самых вдохновляющих компаний, занимающихся машинным обучением, таких как Андрей Карпати из Tesla.

Этот курс обучает комплексному подходу к глубокому обучению, включая

  • Постановка задачи и оценка стоимости проекта
  • Поиск, очистка, маркировка и дополнение данных
  • Выбор правильной платформы и вычислительной инфраструктуры
  • Обучение устранению неполадок и обеспечение воспроизводимости
  • Развертывание моделей в продакшн

5. Сделано с помощью ML от Гоку Мохандаса

Гоку Мохандас создал феноменальный и открытый курс по созданию комплексных систем машинного обучения. Made with ML — один из лучших репозиториев на GitHub, и более 30 тысяч человек проходят его курс.

Уроки Made with ML охватывают основы машинного обучения, а также тонкости развертывания, тестирования и мониторинга моделей в производственной среде. Уроки Goku охватывают интуицию, лежащую в основе представленных концепций, предоставляют практические задания на основе проектов и знакомят учащихся с некоторыми передовыми методами разработки программного обеспечения, необходимыми для достижения успеха в роли MLOps.

6. Потрясающее машинное обучение

Этот тщательно отобранный репозиторий GitHub предназначен для тех, кто хочет просто погрузиться в изучение пакетов, библиотек и передовых инструментов для самостоятельной практики. Все перечисленные пакеты и инструменты предназначены для помощи в создании, развертывании, мониторинге, версии, масштабировании и обеспечении безопасности ваших производственных систем машинного обучения.

Будь то маркировка данных, оркестровка обучения модели, объяснимость, обслуживание, мониторинг и многое другое — здесь определенно есть как минимум несколько пакетов, чтобы начать экспериментировать в ваших проектах. Они также содержат информационный бюллетень The ML Engineer, который держит вас в курсе последних фреймворков, руководств и статей, подготовленных специалистами по машинному обучению.

7. Учебное пособие по MLOps от DVC

DVC (Data Version Control) — это система контроля версий с открытым исходным кодом для проектов машинного обучения. DVC расширяет контроль версий Git на наборы данных и модели. Более того, та же команда, что и DVC, также разработала Continuous Machine Learning (CML) — инструмент для адаптации систем непрерывной интеграции, таких как GitHub Actions и GitLab CI, для машинного обучения.

В этой относительно короткой серии YouTube освещаются важные концепции на стыке DevOps и машинного обучения. Он эффективно сочетает теорию и практику и показывает, как применять управление версиями данных с помощью DVC.

8. Операции машинного обучения

Этот ресурс, возможно, является одним из самых полных. Он пронизан сообщениями, которые разбивают различные элементы успешной практики MLOps. Операции машинного обучения представляют собой рекомендации, рамки, кодексы поведения и попытки установить стандарт для MLOps.

Несмотря на краткость, это отличная отправная точка, объясняющая, почему MLOps важны, ключевые принципы успешной практики MLOps, инструменты и фреймворки, используемые в MLOps, и многое другое.

9. MLOps — операции машинного обучения от AIEngineering

AIEngineering, вероятно, один из лучших, если не лучший канал YouTube для прикладного машинного обучения. Имея более 60 тысяч подписчиков, Шриватсан Шринивасан завоевал популярность, обсуждая все данные.

У него множество подробных видеороликов и плейлистов по MLOps и развертыванию сквозных проектов машинного обучения. Не забудьте проверить это.

10. ML Engineering для производственных развертываний ML с TFX от TensorFlow

Google создал один из наиболее широко используемых инструментов машинного обучения с TensorFlow. Они выводят это на новый уровень с TensorFlow Extended (TFX). TensorFlow Extended — это комплексная платформа для развертывания моделей машинного обучения. Он состоит из различных пакетов для проверки данных, преобразования, анализа моделей и многого другого. TFX создан для простого проектирования систем машинного обучения без абсурдных затрат времени и усилий на разработку программного обеспечения.

Этот плейлист YouTube под руководством защитника разработчиков Google Роберта Кроу знакомит вас с ключевыми концепциями MLOps и лучшими практиками, используемыми в Google. Кроме того, документация по TFX также является замечательным материалом для изучения — просто попытка использовать этот пакет с их руководствами может научить вас многому.

Узнайте больше о MLOps

Хотя MLOps все еще находится на ранних стадиях, очень важно получить преимущество перед последними передовыми методами и инструментами, описанными в приведенных выше ресурсах. Если вы хотите узнать больше о MLOps, вы также можете ознакомиться со следующими ресурсами: