我在R软件中使用SVM,我会提供您可能提供的任何输入。 我有一个我需要用SVM训练的数据集,数据的格式如下
ToPredict Data1 Data2 Data3 Data4 DNA
S 1 12 1 11 000000000100
B -1 17 14 3 11011110111110111
S 1 4 0 4 0000
我的问题是DNA柱。
SVM能够获得像DNA这样的输入并仍能计算可靠的预测吗? 对于我的数据集,0≠00或1≠001因此,它不能作为整数。每个值代表需要处理的信息,顺序非常重要,它是一串二进制值,或者是1或0.
0101信息可以显示为ABAB等(A = 0,B = 1)
如何使用上述数据训练SVM?
谢谢。
答案 0 :(得分:0)
要使SVM正常工作,需要“全部”才能拥有内核功能。
那么对于“DNA字符串”来说,什么是明智的核函数?您可能不需要能够证明它是一个合适的内核,但您可以通过良好的相似性度量来逃避。
您如何评估序列的相似性?我无法帮助你,因为我不知道数据意味着什么;这取决于用户(即您)指定。