Режим Flink yarn-session становится нестабильным при одновременном выполнении ~ 10 пакетных заданий

Я пытаюсь настроить сеанс flink-yarn для запуска более 100 пакетных заданий. После подключения к ~ 40 диспетчерам задач и ~ 10 запущенным заданиям (каждый диспетчер задач с 2 слотами и 1 ГБ памяти каждый), похоже, сеанс становится нестабильным. Доступных ресурсов было достаточно. Пользовательский интерфейс flink внезапно становится недоступным, я предполагаю, что менеджер заданий уже умер. В конце концов, приложение пряжи тоже было убито.

Диспетчер заданий работает на 4-ядерном узле 16 ГБ, доступно 12 ГБ

Есть ли какое-нибудь руководство, чтобы посчитать ресурс диспетчера заданий в зависимости от количества диспетчеров задач, с которым он может справиться?


person joss    schedule 16.08.2020    source источник
comment
Рекомендуем вам спросить об этом в списке рассылки пользователей flink. Это лучший форум для ознакомления с практическим опытом сообщества.   -  person David Anderson    schedule 16.08.2020
comment
Какую версию Flink вы используете? Не могли бы вы поделиться с нами журналами кластера?   -  person Till Rohrmann    schedule 19.08.2020


Ответы (1)


Я исправил это. Причина прерывания flink-сессии заключалась в низкой пропускной способности рабочих машин в кластере. Рабочий компьютер, на котором запущен контейнер диспетчера задач, должен иметь скорость не менее 750 Мбит / с. С каждым диспетчером задач, имеющим 2 слота и 1 ГБ памяти, умеренная пропускная способность ~ 450 Мбит / с не поможет. если задание требует интенсивного ввода-вывода, связь между участниками (менеджером задания и работниками или работником с работником) потенциально может истечь (тайм-аут запроса по умолчанию составляет 100 мс).

Я решил не увеличивать таймаут запроса, чтобы работа не занимала много времени из-за этого узкого места.

person joss    schedule 20.08.2020