在LIBSVM中生成模型文件

时间:2015-09-15 09:58:39

标签: machine-learning bioinformatics libsvm

我正在研究生物信息学。我有一个氨基酸组成序列的数据集。我想用SVM算法将这些氨基酸组成序列分类为阳性和阴性。我正在使用libsvm工具对氨基酸序列进行分类。我所拥有的数据包含3909行。但是当我使用libsvm的svm-train函数生成模型文件时,正在生成的模型文件包含2233行。所以我的数据集的实际维度从3909减少到2233.我不知道为什么会发生这种情况。??请帮助我。

1 个答案:

答案 0 :(得分:1)

模型仅保留定义类所需的支持向量。坦率地说,我很惊讶它保留了很多原始行。

您的术语不正确。 “维度”是要素(列)的数量,而不是行数。维度没有减少。想到这一点的一种方法是,用2233个观察来定义正面和负面之间的整个边界。其他1694点位于远离边界的其他数据点“后面”。

对于一个非常简单的示例,请将所有整数视为数据点。我们简单地对它们进行分类:所有大于pi的点(3.14159 ......)都在正集中;所有较小的都标记为负数。将此信息提供给SVM算法 - 您获得的信息仅为两个行:3为负数; 4是积极的。所有其他要点都在“背后”。

这有帮助吗?