标签: apache-spark rdd
Apache spark支持稀疏数据。
例如,我们可以使用MLUtils.loadLibSVMFile(...)将数据加载到RDD。
MLUtils.loadLibSVMFile(...)
RDD
我想知道spark如何处理那些missing values。
spark
missing values
答案 0 :(得分:1)
Spark创建一个标记点的RDD,每个标记点都有一个标签和一个特征向量。请注意,这是一个支持稀疏元素的Spark Vector(当前稀疏向量由非索引数组表示,每个非null值表示第二个双精度数组)。