Сохранение данных из SparkStreaming Workers в базу данных

В SparkStreaming следует перенести часть сохранения на другой уровень, поскольку контекст SparkStreaming недоступен, когда мы используем SparkCassandraConnector, если наша база данных - cassandra. Более того, даже если мы используем какую-то другую базу данных для сохранения наших данных, нам нужно создавать соединение с воркером каждый раз, когда мы обрабатываем пакет rdds. Причина в том, что объекты подключения не сериализуются.

Рекомендуется ли создавать / закрывать связи у воркеров?
Это сделало бы нашу систему тесно связанной с существующей базой данных, завтра мы можем изменить базу данных

Naresh 19.09.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

Чтобы ответить на ваши вопросы:

Да, создавать / закрывать связи у работников - это нормально. Но убедитесь, что вы не делаете этого для каждой записи. Рекомендуется делать это на уровне раздела или на уровне создания / закрытия соединений для группы записей.
Вы можете отделить его, передав переменную и определив тип соединения с БД во время выполнения.

Возможный дубликат: Обработка подключения к базе данных внутри потоковой передачи искр

Прочтите эту ссылку, она должна прояснить некоторые из ваших вопросов Шаблоны проектирования для использования foreachRDD

Надеюсь на эту помощь!

VenkatN 19.09.2016

Сохранение данных из SparkStreaming Workers в базу данных

Ответы (1)

Вопросы по теме