我的问题:
a)我得到了一个在6个时间点表达1000个基因的数据集。
b)一些基因(testing set
)属于某一类,其特征在于在这些时间点上基因表达的分布。
c)我还有一个已知基因的数据集(training set
)。
d)此外,我想通过随机重组我的测试集来生成false
数据集,并在我的SVM模型中包含该数据集。
我认为我知道如何使用(a)-(c)
和R
包来e1071
,但我不确定如何实施(d)
。我应该只使用计算出的模型测试false
数据,然后比较此数据集和test set
的结果吗?
我应该使用哪些发行版进行比较? (paretro
或者universal gamma
提供我计算的概率?)
答案 0 :(得分:0)
我会考虑两种方法:
正如您所建议的那样,在SVM中运行您的假集(或者更确切地说,多个排列,即多个假集)作为附加测试集,并将分数与实际测试集进行比较。从本质上讲,您可能希望证明您的真实测试集的性能明显优于大多数假集。这将是所描述的统计测试的精神,例如,在this paper中描述更复杂的数据。此外,this paper可用于使用分箱方法将SVM分数转换为校准概率。
使用false
集的子集作为第二个训练集构建一个两类SVM。然后,分类任务将确定您的基因表达模式更可能属于哪个类:“正”类或“假”类。 This paper,this thread和this thread以及一般的SVM教科书可能有助于决定如何最好地设计这种两级分类器。
希望它有所帮助。