这篇论文说她通过搜索允许真菌种类和功能组最佳分类的一种化合物,用支持向量机进行贪婪的维数减少。我想用包e1071在r中实现SVM。我现在首先需要使用训练和测试子集构建模式。但是我不知道如何通过在模式上添加化合物来减少尺寸。这些化合物具有特征,真菌具有特异性。
按照论文中的描述:
“贪婪降维算法用于减少考虑的化合物数量。算法(zu Castell,2013)基于支持向量机的多类判别(libsvm在多类分类模式下使用高斯核; Chang和Lin,2011)。为了估计预测精度,通过使用三分之一的数据进行训练,剩余的三分之二用于预测(10,000个随机选择的迭代)进行交叉验证。算法搜索一个化合物允许对真菌种类和官能团进行最佳分类。在下一步中,确定第二种化合物,与第一种化合物一起,给出最佳的分类准确度。在每一步中重复加入一种化合物。然后在进一步分析中使用提供最大预测精度的化合物,进行PCA,并在第一台和第二台PC上投射数据。完成了在前两台PC跨越的平面内再次应用多类支持向量机分类。为了确定支持向量机的参数,已经应用了10倍交叉验证。该程序根据最大预测准确度得出了一系列化合物(见表1的脚注)。“
Fungal groups and species Prediction probability by chemotyping (%)a
Ectomycorrhizae 99.6
C. geophilum 58.0
L. bicolor 58.6
P. involutus – MAJ 83.2
P. involutus – NAU 79.7
Pathogens 89.5
A. mellea 76.6
P. squarrosa 80.9
V. longisporum 76.1
Saprophytes 90.5
S. rugosoannulata 58.3
T. viride 82.1
通过选择具有最大预测精度的化合物计算概率。用于预测按此顺序选择的功能性真菌基团的化合物:cadina-1,4-二烯,戊醇,α-香柠檬烯,3-甲基-1-丁醇,2-糠酸甲酯,α-muurolene,己醇,curcumene,3, 5-二甲基苯甲醚,2-戊基呋喃,2-甲基-1-丁醇,姜烯,epizonaren,石竹烯,β-selinene和γ-selinene。用于预测按此顺序选择的真菌种类的化合物:δ-甘氨酸,3-辛酮,β-立方烯,己醇,β-倍半水杨烯,2-糠酸甲酯,戊醇,姜黄素,土臭味素,1S-顺式 - 卡那梅,芳樟醇,和cadina -1,4-二烯。