Как разделить строки Spark RDD с помощью Deliminator

Я пытаюсь разбить данные в Spark в виде RDD Array[String]. В настоящее время я загрузил файл в RDD String.

> val csvFile = textFile("/input/spam.csv")

Я хотел бы разделить на , разделитель.

Mayank 20.04.2015 источник

comment

spark.apache.org/docs/latest/quick-start.html - Nikita 20.04.2015

comment

@ipoteka: Я перешел по этой ссылке, но ничего не нашел для файла CSV - Mayank 20.04.2015

comment

stackoverflow.com/ questions / 24299427 / - Nadjib Mami 20.04.2015

comment

@ipoteka: Спасибо, но не могли бы вы написать это в коде, так как я новичок в теории относительности, я не могу этого понять. - Mayank 20.04.2015

comment

Если у вас сжатые сроки, я предлагаю вам изучить эту тему и поработать над ней вместо того, чтобы ждать ответа. Предоставленные ссылки содержат код. Пройдите через это, попробуйте и при необходимости задайте новые вопросы. «Plz zend me de codez» не одобряется ». - maasg 20.04.2015

Ответы (2)

arrow_upward
3
arrow_downward

Этот:

val csvFile = textFile("/input/spam.csv").map(line => line.split(","))

возвращает вам RDD[Array[String]].

Если вам нужен первый столбец как один RDD, тогда с помощью функции map возвращается только первый индекс из массива:

  val firstCol = csvFile.map(_.(0))

hnahak 20.04.2015

comment

Спасибо, но моя первая строка содержит заголовок столбца, который я хотел бы исключить и использовать для определения схемы. - Mayank; 21.04.2015

comment

проверьте эту ссылку how-do-i-convert-csv-file-to -rdd - hnahak; 22.04.2015

arrow_upward
0
arrow_downward

Вы должны использовать библиотеку spark-csv, которая может анализировать ваш файл с учетом заголовков и позволяет вам указать разделитель. Кроме того, он неплохо справляется с выводом схемы. Я позволю вам прочитать документацию, чтобы узнать о множестве вариантов, имеющихся в вашем распоряжении.

Это может выглядеть так:

sqlContext.read.format("com.databricks.spark.csv")
.option("header","true")
.option("delimiter","your delimitor")
.load(pathToFile)

Имейте в виду, что это возвращает DataFrame, который вам, возможно, придется преобразовать в rdd с помощью функции .rdd.

Конечно, вам нужно будет загрузить пакет в драйвер, чтобы он заработал.

vl4py 21.07.2016

Как разделить строки Spark RDD с помощью Deliminator

Ответы (2)

Вопросы по теме