Я использую pyspark для постановки задачи, здесь я предполагаю объединить свои результаты и передать их в качестве входных данных для другой моей модели. Но в hdfs мой вывод разбивается на части, и поэтому их сложно объединить.
Итак, я хотел сохранить выходные результаты напрямую в таблице импала, как я могу это сделать?
saveAsTable
? Или с помощью SparkSQL для запуска INSERT INTO существующей таблицы? Кроме того, HDFS может читать весь каталог для ввода, поэтому неясно, запрашиваете ли вы один файл или нет. - person OneCricketeer   schedule 22.03.2018