Многие говорят:
Spark не реплицирует данные в hdfs.
Spark упорядочивает операции в графе DAG. Spark строит линию RDD. Если RDD утерян, его можно восстановить с помощью графа происхождения. Таким образом, нет необходимости в репликации данных, поскольку RDDS можно пересчитать из графа происхождения.
И мой вопрос:
Если узел выходит из строя, spark только пересчитывает разделы RDD, потерянные на этом узле, но откуда берется источник данных, необходимый для процесса пересчета? Вы имеете в виду, что его родительский RDD все еще существует, когда узел выходит из строя? Что, если RDD, который потерял некоторые разделы, не имеет родительского RDD (например, RDD из приемника потоковой передачи искры)?