应用错误收集

高度稀疏数据集上的支持向量机

时间：2014-07-21 03:44:44

标签： machine-learning svm sparse-matrix

我目前遇到在高度稀疏的数据集上使用 SVM的问题。问题是我有N * M数据集，其中N个例子和M个特征。 每个N几乎没有10个特征。

截至目前，我将这些特征表示为二进制向量，即如果现在在给定的0中存在该特征，则为1。 数据集是平衡的，我的准确率为94％。此外，ROC为0.93 。我试图理解为什么这种准确性会很高。

（1）任何人都可以引导我阅读相关论文，其中稀疏数据集具有高精度，我可以尝试找到如此高精度的原因。

（2）我还计划使用SciKit Learn。任何人都可以建议我在scikit中应该使用哪个函数在SVM中学习，这是为这种高稀疏度数据集而设计的。

（3）如果任何人可以尝试向我解释如此高准确度背后的原因，那么它会很棒。

（4）此外，如果我将二元特征表示更改为某种加权表示，它是否会给我一些优势。

1 个答案:

答案 0 :(得分：0)

嗯，对于初学者来说，稀疏的训练数据并不一定意味着分类准确度必须很低。如果您能找到一个好的决策边界，那么数据是否稀疏并不重要。请记住，支持向量本身是数据的一个非常小（=稀疏）的子集，但它们仍然足以用于分类目的。与机器学习一样，算法结果高度依赖于问题域和所选择的参数。

对于您的第二个问题，“svm稀疏数据”的第一个google结果显示此链接： http://scikit-learn.org/stable/modules/svm.html

至于第四个问题，一旦你尝试过，你只能知道答案，没有人知道你的方法和有关数据的更多细节，没有人可以预测结果。

相关问题

在Hadoop上支持矢量机

巨大稀疏数据集上的主成分分析（PCA）

sklearn.svm.SVC没有给出稀疏数据集的支持向量索引？

决策树 - 稀疏数据集

支持向量机

从高度倾斜的数据集预测

高度稀疏数据集上的支持向量机

高度不平衡的故障检测数据集

支持向量机理解

如何处理高度不平衡的数据集

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？