Я не очень хорошо разбираюсь в архитектуре даже после прохождения руководств. Как масштабировать набор потоков в распределенной среде? Допустим, наша скорость ввода данных увеличивается от источника, тогда как гарантировать, что SDC не вызывает проблем с производительностью? Сколько демонов будет запущено? Будет ли это архитектура Master Worker или одноранговая архитектура?
Если на нескольких машинах работает несколько демонов (например, один sdc вместе с одним NodeManager в YARN), то как он будет отображать централизованное представление данных, т.е. общее количество записей и т. д.?
Также, пожалуйста, дайте мне знать архитектуру диспетчера производительности Dataflow. Какие все демоны есть в этом продукте?