У меня есть таблица Cassandra XYX со столбцами (id uuid, вставьте метку времени, текст заголовка)
Где id и insert - составной первичный ключ.
Я использую Dataframe, и в моей искровой оболочке я получаю идентификатор и столбец заголовка. Я хочу иметь отдельные строки на основе идентификатора и столбца заголовка.
Я вижу много случайных перестановок, которые не имеют места, поскольку соединитель Spark Cassandra гарантирует, что все строки для данного раздела Cassandra находятся в одном разделе Spark.
После получения я использую dropDuplicates для получения отдельных записей.