SVM分类二进制数据DNA

时间:2014-03-14 02:21:12

标签: machine-learning classification data-mining svm libsvm

我在R软件中使用SVM,我会提供您可能提供的任何输入。 我有一个我需要用SVM训练的数据集,数据的格式如下

ToPredict   Data1      Data2        Data3    Data4         DNA
S            1          12             1       11          000000000100
B           -1          17            14        3          11011110111110111
S            1          4              0        4          0000


我的问题是DNA柱。

SVM能够获得像DNA这样的输入并仍能计算可靠的预测吗? 对于我的数据集,0≠00或1≠001因此,它不能作为整数。每个值代表需要处理的信息,顺序非常重要,它是一串二进制值,或者是1或0.



0101信息可以显示为ABAB等(A = 0,B = 1)

如何使用上述数据训练SVM?

谢谢。

1 个答案:

答案 0 :(得分:0)

要使SVM正常工作,需要“全部”才能拥有内核功能。

那么对于“DNA字符串”来说,什么是明智的核函数?您可能不需要能够证明它是一个合适的内核,但您可以通过良好的相似性度量来逃避。

您如何评估序列的相似性?我无法帮助你,因为我不知道数据意味着什么;这取决于用户(即您)指定。