假设我有一个RDD的Array [Double],有n列。我想在最后一列上应用过滤器(例如,值>某些常量)。
答案 0 :(得分:2)
像这样的东西
val rdd: RDD[Array[Double]] = ...
val filtered: RDD[Array[Double]] = rdd.filter(arr => arr.last() > some_value)
我不认为选择Array或Vector真的很重要。 Spark的整体开销远远高于Arrays vs Vectors
的性能/内存优势