Загрузка csv-файлов в sparkR

В R я создал два набора данных, которые я сохранил как csv-файлы с помощью

liste <-write.csv(liste, file="/home/.../liste.csv", row.names=FALSE)
    data <- write.csv(data, file="/home/.../data.csv", row.names=FALSE)

Теперь я хочу открыть эти CSV-файлы в SparkR. Так что я печатаю

liste <- read.df(sqlContext, "/home/.../liste.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

data <- read.df(sqlContext, "/home/.../data.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

Оказывается, один набор данных «лист» успешно загружен в SparkR, однако «данные» не могут быть загружены по каким-то странным причинам.

'liste' - это просто вектор чисел в R, тогда как 'data' - это data.frame, который я загрузил в R и удалил некоторые части data.frame. SparkR дает мне это сообщение об ошибке:

Ошибка: returnStatus == 0 НЕ ИСТИНА

r sparkr

Ole Petersen 10.08.2015 источник

comment

Набор данных 'liste' может быть успешно загружен в sparkR. В R 'liste' - это вектор 2, 3, 4, 6, 9, ... Но 'data' - это csv-файл, который я загрузил в R и внес в него некоторые изменения. Я сохраняю его как csv-файл, а затем пытаюсь загрузить его в SparkR, что у меня не получается. - Ole Petersen 10.08.2015

comment

CSV-файл, который я загрузил в R, был около 2 ГБ. Я просто внес несколько изменений и сохранил его как новый csv-файл под названием «data», но этот csv-файл имеет размер всего около 33 КБ, что мало. Мне это показалось очень странным. - Ole Petersen 10.08.2015

Ответы (1)

arrow_upward
2
arrow_downward

Liste - это локальный список, который можно записать с помощью write.csv, data - это SparkR DataFrame, который нельзя записать с помощью write.csv: он записывает только свой указатель, а не DataFrame. Поэтому всего 33 кб

Wannes Rosiers 10.08.2015

comment

Спасибо за ответ. Как я могу затем сохранить его, чтобы загрузить в sparkR и угрожать ему как DataFrame? - Ole Petersen; 10.08.2015

comment

Я могу сохранить его в parquet: write.df (data, data.json, parquet, overwrite) или saveAsParquetFile (data, data), а позже вы можете прочитать файл паркета. - Wannes Rosiers; 13.08.2015

Загрузка csv-файлов в sparkR

Ответы (1)

Вопросы по теме