Question

我是学习Spark MLlib的新手。当我读到二项式逻辑回归的例子时，我不理解“libsvm”的格式类型。（Binomial logistic regression）

文字如下：

arm64-v8a

你能帮我理解一下Spark MLlib的libsvm格式吗？谢谢！

Answer 1

LibSVM格式非常简单。第一行包含类标签，在本例中为0或1.以下是功能，这里有两个值;第一个是特征索引（即它是哪个特征），第二个是实际值。

特征索引从1开始（没有索引0）并且按升序排列。行中不存在的索引为0。

总之，每一行都是这样的;

<label> <index1>:<value1> <index2>:<value2> ... <indexN>:<valueN>

当数据稀疏且包含大量零时，此格式有利于使用。不保存所有0值，这将使文件更小，更容易阅读。