使用SVM进行基因表达分析

时间:2013-05-23 21:45:44

标签: r svm

我的问题:

a)我得到了一个在6个时间点表达1000个基因的数据集。

b)一些基因(testing set)属于某一类,其特征在于在这些时间点上基因表达的分布。

c)我还有一个已知基因的数据集(training set)。

d)此外,我想通过随机重组我的测试集来生成false数据集,并在我的SVM模型中包含该数据集。

我认为我知道如何使用(a)-(c)R包来e1071,但我不确定如何实施(d)。我应该只使用计算出的模型测试false数据,然后比较此数据集和test set的结果吗?

我应该使用哪些发行版进行比较? (paretro或者universal gamma提供我计算的概率?)

1 个答案:

答案 0 :(得分:0)

我会考虑两种方法:

  1. 正如您所建议的那样,在SVM中运行您的假集(或者更确切地说,多个排列,即多个假集)作为附加测试集,并将分数与实际测试集进行比较。从本质上讲,您可能希望证明您的真实测试集的性能明显优于大多数假集。这将是所描述的统计测试的精神,例如,在this paper中描述更复杂的数据。此外,this paper可用于使用分箱方法将SVM分数转换为校准概率。

  2. 使用false集的子集作为第二个训练集构建一个两类SVM。然后,分类任务将确定您的基因表达模式更可能属于哪个类:“正”类或“假”类。 This paperthis threadthis thread以及一般的SVM教科书可能有助于决定如何最好地设计这种两级分类器。

  3. 希望它有所帮助。