Теперь у меня есть кластер Ray, работающий на EC2 (Ubuntu 16.04) с главным узлом c4.8xlarge и одним идентичным рабочим. Я хотел проверить, используется ли многопоточность, поэтому я провел тесты, чтобы время увеличения числа (n) одной и той же 9-секундной задачи. Поскольку в инстансе 18 ЦП, я ожидал увидеть, что задание займет около 9 секунд до n ‹= 35 (при условии, что один ЦП для управления кластером), а затем либо сбой, либо увеличение примерно до 18 секунд при переключении на 36 виртуальных ЦП. на узел.
Вместо этого кластер обрабатывал только 14 задач параллельно, а затем время выполнения подскочило до 40 секунд и продолжило увеличиваться с увеличением n. Когда я попробовал мастер c4xlarge (4 процессора), время было прямо пропорционально n, то есть они работали последовательно. Поэтому я предполагаю, что мастеру на самом деле требуется 4 процессора для системы, а рабочий узел вообще не используется. Однако, если я добавлю второго рабочего, время для n> 14 будет примерно на 40 секунд меньше, чем без него. Я также пробовал значение target_utilization_factor меньше 1.0, но это не имело никакого значения.
Об ошибках не сообщалось, но я заметил, что статус лучевого узла для рабочего в консоли экземпляров EC2 был «обновление-сбой». Это важно? Может ли кто-нибудь просветить меня об этом поведении?
ray timeline
в командной строке (на одном из узлов), а затем загрузите полученный файл JSON в chrome: // tracing в веб-браузере Chrome. - person Robert Nishihara   schedule 13.05.2019