Я новичок в искре (потоковая передача искр в Python), и, если я правильно понял, DStream - это последовательность RDD.
Представьте, что в нашем коде есть:
ssc = StreamingContext(sc, 5)
Таким образом, каждые 5 секунд создается объект DSTream, который представляет собой последовательность RDD.
Представьте, что у меня есть два DStreams DS1 и DS2 (каждый по 5 секунд). Мой код:
DGS1 = DS1.groupByKey()
DGS2 = DS2.groupByKey()
FinalStream = DS1.join(DS2)
Что происходит внутри, когда я вызываю groupByKey и Join (на уровне RDD)?
Спасибо !