Я новичок в Apache Spark (версия 1.4.1). Я написал небольшой код для чтения текстового файла и сохранил его данные в Rdd.
Есть ли способ получить размер данных в rdd.
Это мой код:
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.util.SizeEstimator
import org.apache.spark.sql.Row
object RddSize {
def main(args: Array[String]) {
val sc = new SparkContext("local", "data size")
val FILE_LOCATION = "src/main/resources/employees.csv"
val peopleRdd = sc.textFile(FILE_LOCATION)
val newRdd = peopleRdd.filter(str => str.contains(",M,"))
//Here I want to find whats the size remaining data
}
}
Я хочу получить размер данных до преобразования фильтра (peopleRdd) и после него (newRdd).
def count(): Long Return the number of elements in the RDD.
из документа Spark. - person The Archetypal Paul   schedule 24.08.2015newRDD
еще ничего не было выполнено. Если вам нужен размер, вы заставите его оценить и, вероятно, сделаете слишком много работы., - person The Archetypal Paul   schedule 24.08.2015