火花如何处理缺失值?

时间:2015-06-02 03:37:46

标签: apache-spark rdd

Apache spark支持稀疏数据。

例如,我们可以使用MLUtils.loadLibSVMFile(...)将数据加载到RDD

我想知道spark如何处理那些missing values

1 个答案:

答案 0 :(得分:1)

Spark创建一个标记点​​的RDD,每个标记点都有一个标签和一个特征向量。请注意,这是一个支持稀疏元素的Spark Vector(当前稀疏向量由非索引数组表示,每个非null值表示第二个双精度数组)。