Question

我在R软件中使用SVM，我会提供您可能提供的任何输入。我有一个我需要用SVM训练的数据集，数据的格式如下

ToPredict   Data1      Data2        Data3    Data4         DNA
S            1          12             1       11          000000000100
B           -1          17            14        3          11011110111110111
S            1          4              0        4          0000

我的问题是DNA柱。

SVM能够获得像DNA这样的输入并仍能计算可靠的预测吗？对于我的数据集，0≠00或1≠001因此，它不能作为整数。每个值代表需要处理的信息，顺序非常重要，它是一串二进制值，或者是1或0.

0101信息可以显示为ABAB等（A = 0，B = 1）

如何使用上述数据训练SVM？

谢谢。

Answer 1

要使SVM正常工作，需要“全部”才能拥有内核功能。

那么对于“DNA字符串”来说，什么是明智的核函数？您可能不需要能够证明它是一个合适的内核，但您可以通过良好的相似性度量来逃避。

您如何评估序列的相似性？我无法帮助你，因为我不知道数据意味着什么;这取决于用户（即您）指定。

SVM分类二进制数据DNA

1 个答案: