应用错误收集

我的问题：

a）我得到了一个在6个时间点表达1000个基因的数据集。

b）一些基因（testing set）属于某一类，其特征在于在这些时间点上基因表达的分布。

c）我还有一个已知基因的数据集（training set）。

d）此外，我想通过随机重组我的测试集来生成false数据集，并在我的SVM模型中包含该数据集。

我认为我知道如何使用(a)-(c)和R包来e1071，但我不确定如何实施(d)。我应该只使用计算出的模型测试false数据，然后比较此数据集和test set的结果吗？

我应该使用哪些发行版进行比较？（paretro或者universal gamma提供我计算的概率？）

我会考虑两种方法：

正如您所建议的那样，在SVM中运行您的假集（或者更确切地说，多个排列，即多个假集）作为附加测试集，并将分数与实际测试集进行比较。从本质上讲，您可能希望证明您的真实测试集的性能明显优于大多数假集。这将是所描述的统计测试的精神，例如，在this paper中描述更复杂的数据。此外，this paper可用于使用分箱方法将SVM分数转换为校准概率。
使用false集的子集作为第二个训练集构建一个两类SVM。然后，分类任务将确定您的基因表达模式更可能属于哪个类：“正”类或“假”类。 This paper，this thread和this thread以及一般的SVM教科书可能有助于决定如何最好地设计这种两级分类器。

希望它有所帮助。