Режим Flink yarn-session становится нестабильным при одновременном выполнении ~ 10 пакетных заданий

Я пытаюсь настроить сеанс flink-yarn для запуска более 100 пакетных заданий. После подключения к ~ 40 диспетчерам задач и ~ 10 запущенным заданиям (каждый диспетчер задач с 2 слотами и 1 ГБ памяти каждый), похоже, сеанс становится нестабильным. Доступных ресурсов было достаточно. Пользовательский интерфейс flink внезапно становится недоступным, я предполагаю, что менеджер заданий уже умер. В конце концов, приложение пряжи тоже было убито.

Диспетчер заданий работает на 4-ядерном узле 16 ГБ, доступно 12 ГБ

Есть ли какое-нибудь руководство, чтобы посчитать ресурс диспетчера заданий в зависимости от количества диспетчеров задач, с которым он может справиться?

amazon-emr apache-flink flink-batch

joss 16.08.2020 источник

comment

Рекомендуем вам спросить об этом в списке рассылки пользователей flink. Это лучший форум для ознакомления с практическим опытом сообщества. - David Anderson 16.08.2020

comment

Какую версию Flink вы используете? Не могли бы вы поделиться с нами журналами кластера? - Till Rohrmann 19.08.2020

Ответы (1)

arrow_upward
1
arrow_downward

Я исправил это. Причина прерывания flink-сессии заключалась в низкой пропускной способности рабочих машин в кластере. Рабочий компьютер, на котором запущен контейнер диспетчера задач, должен иметь скорость не менее 750 Мбит / с. С каждым диспетчером задач, имеющим 2 слота и 1 ГБ памяти, умеренная пропускная способность ~ 450 Мбит / с не поможет. если задание требует интенсивного ввода-вывода, связь между участниками (менеджером задания и работниками или работником с работником) потенциально может истечь (тайм-аут запроса по умолчанию составляет 100 мс).

Я решил не увеличивать таймаут запроса, чтобы работа не занимала много времени из-за этого узкого места.

joss 20.08.2020

Режим Flink yarn-session становится нестабильным при одновременном выполнении ~ 10 пакетных заданий

Ответы (1)

Вопросы по теме