如何理解Spark MLlib的libsvm的格式类型?

时间:2017-07-07 07:39:42

标签: apache-spark apache-spark-mllib libsvm apache-spark-ml

我是学习Spark MLlib的新手。当我读到二项式逻辑回归的例子时,我不理解“libsvm”的格式类型。 (Binomial logistic regression

文字如下:

arm64-v8a

你能帮我理解一下Spark MLlib的libsvm格式吗?谢谢!

1 个答案:

答案 0 :(得分:4)

LibSVM格式非常简单。第一行包含类标签,在本例中为0或1.以下是功能,这里有两个值;第一个是特征索引(即它是哪个特征),第二个是实际值。

特征索引从1开始(没有索引0)并且按升序排列。行中不存在的索引为0。

总之,每一行都是这样的;

<label> <index1>:<value1> <index2>:<value2> ... <indexN>:<valueN>

当数据稀疏且包含大量零时,此格式有利于使用。不保存所有0值,这将使文件更小,更容易阅读。