Мои данные о HDFS находятся в формате файла Sequence. Я использую PySpark (Spark 1.6) и пытаюсь достичь двух вещей:
Путь к данным содержит метку времени в формате гггг / мм / дд / чч, которую я хотел бы добавить в сами данные. Я пробовал SparkContext.wholeTextFiles, но думаю, что он может не поддерживать формат файла Sequence.
Как мне справиться с указанным выше вопросом, если я хочу обработать данные за день и добавить дату в данные? В этом случае я бы загружал данные в формате yyyy / mm / dd / *.
Цените любые указатели.