Загрузка csv-файлов в sparkR

В R я создал два набора данных, которые я сохранил как csv-файлы с помощью

liste <-write.csv(liste, file="/home/.../liste.csv", row.names=FALSE)
    data <- write.csv(data, file="/home/.../data.csv", row.names=FALSE)

Теперь я хочу открыть эти CSV-файлы в SparkR. Так что я печатаю

liste <- read.df(sqlContext, "/home/.../liste.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

data <- read.df(sqlContext, "/home/.../data.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

Оказывается, один набор данных «лист» успешно загружен в SparkR, однако «данные» не могут быть загружены по каким-то странным причинам.

'liste' - это просто вектор чисел в R, тогда как 'data' - это data.frame, который я загрузил в R и удалил некоторые части data.frame. SparkR дает мне это сообщение об ошибке:

Ошибка: returnStatus == 0 НЕ ИСТИНА


person Ole Petersen    schedule 10.08.2015    source источник
comment
Набор данных 'liste' может быть успешно загружен в sparkR. В R 'liste' - это вектор 2, 3, 4, 6, 9, ... Но 'data' - это csv-файл, который я загрузил в R и внес в него некоторые изменения. Я сохраняю его как csv-файл, а затем пытаюсь загрузить его в SparkR, что у меня не получается.   -  person Ole Petersen    schedule 10.08.2015
comment
CSV-файл, который я загрузил в R, был около 2 ГБ. Я просто внес несколько изменений и сохранил его как новый csv-файл под названием «data», но этот csv-файл имеет размер всего около 33 КБ, что мало. Мне это показалось очень странным.   -  person Ole Petersen    schedule 10.08.2015


Ответы (1)


Liste - это локальный список, который можно записать с помощью write.csv, data - это SparkR DataFrame, который нельзя записать с помощью write.csv: он записывает только свой указатель, а не DataFrame. Поэтому всего 33 кб

person Wannes Rosiers    schedule 10.08.2015
comment
Спасибо за ответ. Как я могу затем сохранить его, чтобы загрузить в sparkR и угрожать ему как DataFrame? - person Ole Petersen; 10.08.2015
comment
Я могу сохранить его в parquet: write.df (data, data.json, parquet, overwrite) или saveAsParquetFile (data, data), а позже вы можете прочитать файл паркета. - person Wannes Rosiers; 13.08.2015