在矢量/数组的RDD上应用滤波器[双]

时间:2014-12-08 02:39:19

标签: arrays scala vector apache-spark rdd

假设我有一个RDD的Array [Double],有n列。我想在最后一列上应用过滤器(例如,值>某些常量)。

  • Scala / Apache Spark的语法是什么?
  • 如果我有一个RDD of Vectors,是否可以这样做?
  • 如果我可以选择一个而不是另一个(即,数组[双]的RDD和向量的RDD),我应该选择哪一个以获得更多 高效/快速的代码?

1 个答案:

答案 0 :(得分:2)

像这样的东西

val rdd: RDD[Array[Double]] = ...
val filtered: RDD[Array[Double]] = rdd.filter(arr => arr.last() > some_value)

我不认为选择Array或Vector真的很重要。 Spark的整体开销远远高于Arrays vs Vectors

的性能/内存优势