В SparkStreaming следует перенести часть сохранения на другой уровень, поскольку контекст SparkStreaming недоступен, когда мы используем SparkCassandraConnector, если наша база данных - cassandra. Более того, даже если мы используем какую-то другую базу данных для сохранения наших данных, нам нужно создавать соединение с воркером каждый раз, когда мы обрабатываем пакет rdds. Причина в том, что объекты подключения не сериализуются.
Рекомендуется ли создавать / закрывать связи у воркеров?
Это сделало бы нашу систему тесно связанной с существующей базой данных, завтра мы можем изменить базу данных