Введение

Кластеры графических процессоров являются основной инфраструктурой для облегчения выполнения распределенных учебных нагрузок Mмашинного обучения (ML). Однако когда несколько таких рабочих нагрузок выполняются в общем кластере, возникает значительный конфликт. Это соперничество приводит к снижению использования и эффективности базового оборудования. Авторы Themis [1] отмечают, что доступные механизмы планирования кластеров не подходят для уникальных характеристик учебных нагрузок машинного обучения. Рабочие нагрузки по обучению машинному обучению обычно представляют собой длительные задания, которые необходимо групповое планирование, и их производительность зависит от относительного размещения задач. Они предлагают Themis[1] в качестве новой структуры планирования для учебных нагрузок машинного обучения. Этот механизм представляет собой политику выделения графических процессоров, обеспечивающую завершение учебных рабочих нагрузок машинного обучения в справедливом режиме (отношение времени выполнения в общем кластере с N приложениями к времени выполнения в одиночку в кластер 1/N). Цель Themis — минимизировать максимальную справедливость времени завершения для всех приложений машинного обучения, эффективно используя кластерные графические процессоры. Themis использует двухуровневую архитектуру планирования, в которой задания машинного обучения делают ставки на доступные ресурсы, предлагаемые на аукционе центральным арбитром. Утверждается, что этот тип планирования фиксирует чувствительность размещения и обеспечивает эффективность. Аукцион (арбитр) распределяет графические процессоры между победившими участниками торгов, торгуя справедливостью в пользу эффективности в краткосрочной перспективе, но обеспечивая справедливость по времени завершения в долгосрочной перспективе. Themis реализован поверх Apache YARN 3.2.0 и оценивается путем воспроизведения рабочих нагрузок из трассировки крупного предприятия. Оценки показывают улучшение справедливости более чем в 2,25 раза и эффективность кластера на ~5%до ~250%.

Фон

Поощрение обмена (SI), которое может побудить людей поделиться чем-либо, — это справедливость. Если N пользователей совместно используют кластер, состоящий из C GPU, производительность каждого пользователя не должна быть меньше, чем при использовании частного кластера размером C/N. . Кроме того, они не должны страдать от длительного ожидания. Предыдущие платформы планирования кластеров [2,3,4], пытающиеся стимулировать совместное использование кластера, предназначены для больших данных. рабочие нагрузки (неэффективно для рабочих нагрузок машинного обучения). Они не учитывают большую продолжительность задач машинного обучения и предпочтения по размещению приложений машинного обучения.

Характеристики рабочих нагрузок машинного обучения, которые делают текущие планировщики больших данных несправедливыми

  1. В заданиях машинного обучения есть длительные задачи, которые необходимо планировать вместе, т. е. групповое планирование.
  2. Задания машинного обучения зависят от размещения. Каждая задача в задании часто выполняется в течение нескольких итераций с синхронизацией обновлений модели в конце каждой итерации. Это указывает на то, что общение становится важным в рабочих нагрузках машинного обучения. Если все задачи задания размещаются на одной машине или в одной стойке, это приведет к значительному ускорению из-за более быстрой связи.

Выводы основаны на наблюдениях за трассировкой выполнения на 50 графических процессорах, совместно используемых 5000 уникальными пользователями

  1. Приложения машинного обучения неоднородны с точки зрения использования ресурсов, количества отправленных заданий и времени выполнения. Они намного дольше, чем работы по анализу больших данных. Работа с большими данными обычно занимает несколько часов.
  2. ~10 % приложений имеют 1 задание, а около ~90 % приложений выполняют исследование гиперпараметров с числом заданий до 100.

Выражения Парето-эффективности (PE) и Envy-Freedom (EF)

Эффективность по Парето — это ситуация, когда ни один индивидуум или критерий предпочтения не может быть улучшен без ухудшения хотя бы одного индивидуума или критерия предпочтения или без их потери.

Зависть-Свобода говорит о том, что при распределении ресурсов между людьми с равными правами каждый человек должен получить долю, которая, по его мнению, не хуже доли, полученной любым другим агентом.

Предлагаемый механизм

Терминология

  • Приложения машинного обучения: набор из одного или нескольких заданий обучения модели машинного обучения, соответствующих пользователю, для целей высокого уровня, таких как распознавание речи или обнаружение объектов. strong> (пользователи обучают эти модели, зная соответствующие гиперпараметры или исследуют их, обучая набор из них)
  • Задание: набор параллельных задач. В любой момент времени все задачи задания совместно обрабатывают мини-пакет обучающих данных.
  • Задача: обрабатывает подмножество пакета, начинает с начальной версии модели и выполняет несколько итераций базового алгоритма обучения для улучшения модели.

Мотивация

Из-за большой продолжительности выполнения приложений пользователи, которые доминируют над пропускной способностью, налагают большое время ожидания на многих других пользователей. Некоторые такие угнетенные пользователи вынуждены уйти и купить свое оборудование. Хотя важно иметь планировщик для обеспечения высокой загрузки базового оборудования, планировщик должен справедливо распределять ресурсы между приложениями машинного обучения.

Показатель справедливости времени окончания. Он показан в следующей формуле:

Tsh — это общее время окончания, а Tid — независимое время окончания.

Механизм распределения должен оцениватьзначения метрики времени окончания для различных распределений графических процессоров. Но механизм планирования не может предсказать или определить значение метрики. Таким образом, Themis предлагает более широкий интерфейс между приложением и механизмом планирования, который может позволить приложению выражать предпочтения для каждого распределения. Предлагается, чтобы приложения могли кодировать эту информацию в виде таблицы следующим образом.

В каждом столбце есть перестановка потенциального выделения графического процессора и оценка метрики справедливости на момент окончания при получении этого распределения.

Равномерность времени окончания для приложения машинного обучения зависит от выделения графического процессора, которое оно получает. Политика распределения использует эти метрики справедливости на момент завершения и распределения выходных данных.

Механизм

Поначалу в качестве решения может прийти на ум наивная политика сортировки приложений на основе сообщаемой ими метрики честности времени завершения и выделения графических процессоров на их основе. Однако приложение может предоставлять ложную информацию о значении показателя справедливости на момент окончания, что повышает его шансы на выигрыш. Для решения этого вопроса авторы предлагают использовать аукционы.

Двухуровневая схема планирования содержит централизованный планировщик между приложениями на нижнем уровне и узкий API для интеграции с существующими платформами настройки гиперпараметров на верхнем уровне. Несколько существующих фреймворков [5, 6] могут интеллектуально распределять ресурсы графического процессора между различными заданиями в одном приложении, а в некоторых случаях также досрочно завершать задание, если его выполнение не обнадеживает.

Авторы считают, что время завершения приложения наступает, когда были определены лучшая модель и соответствующие гиперпараметры. В ходе идентификации такой модели приложение может принять решение о досрочном прекращении некоторых составляющих ее заданий. Субоптимальность этих моделей можно определить, проверив точность проверки (например, завершается минимальная). Для приложений, содержащих одно задание, время окончания — это время, необходимое для обучения этой модели до заданной точности или максимального количества итераций.

Заключение

При планировании рабочих нагрузок машинного обучения в кластерах традиционные платформы подбора больших данных не могут помочь. Эти рабочие нагрузки обладают уникальными характеристиками, которые необходимо учитывать при наличии мотивированного общего кластера с эффективностью (высокой степенью использования). Themis решает проблему, предлагая двухуровневый планировщик и распределение ресурсов на основе концепции, аналогичной реальным аукционам. Однако конфликты между приложениями при их совместном размещении следует учитывать для рабочих нагрузок машинного обучения, если они не полностью используют базовые ресурсы.

Рекомендации

[1] К. Махаджан и др., «Themis: Fair and Efficient GPU Cluster Scheduling,» в 17th Симпозиум USENIX по проектированию и внедрению сетевых систем (NSDI 20), 2020, bll 289–304.

[2] Годси, Али и др. «Доминирующая справедливость ресурсов (DRF): справедливое распределение нескольких типов ресурсов» Nsdi. Том. 11. №2011. 2011.



[3] Исард, Майкл и др. «Quincy: справедливое планирование распределенных вычислительных кластеров». Материалы 22-го симпозиума ACM SIGOPS по принципам операционных систем. 2009.

[4] Грандл, Роберт и др. «Альтруистическое планирование в кластерах с несколькими ресурсами.» 12-й симпозиум {USENIX} по проектированию и внедрению операционных систем ({OSDI} 16). 2016.



[5] Бергстра, Джеймс и др. «Hyperopt: библиотека Python для выбора модели и оптимизации гиперпараметров.» Computational Science & Discovery 8.1 (2015): 014008.

[6] Расли, Джефф и др. «Hyperdrive: изучение гиперпараметров с помощью всплывающего расписания». Материалы 18-й конференции по промежуточному программному обеспечению ACM/IFIP/USENIX. 2017.

[7] Гу, Цзюньчэн и др. «Tiresias: диспетчер кластера GPU для распределенного глубокого обучения». 16-й USENIXсимпозиум по проектированию и внедрению сетевых систем (NSDI 19). 2019.



Политика выделения наименее достигнутых служб (LAS): графические процессоры (или ресурсы) сдаются в аренду на определенный срок, а по истечении срока аренды доступные графические процессоры выделяются для задания, которое получило наименьшее время использования графического процессора.

Хорошо знать