分类变量

时间:2016-07-05 12:56:48

标签: r algorithm statistics permutation bioinformatics

我有一个包含16个测量值的数据集。我有一个classfication变量“type”它是0或1.我想对我的分类器进行排列测试。

我想创建新标签,其中有8 = 1和8 = 0

我正在使用

sample(type, 16, replace = FALSE) 

工作正常。

但我在想,因为有很少的测量,我可能会遇到一个问题,即测试的组合比实际组合更多。这是一个问题,因为您的p值会低估/高估,例如:做一百万次排列,只有1000次。

所以我的问题是:

如何计算有N个患者的载体的可能排列数,并且必须有一个P和另一个的(N-P)。

其次只是出于好奇(当有多少可能的排列)你会选择做一个完整的测试而不是随机抽样。

我知道这很简单,我无法理解。

1 个答案:

答案 0 :(得分:1)

此类combinations的数量为Choose K from N

C(N,K) = N! / (K!*(N-K)!)

对于您的案例C(16,8)=12870

您可以使用R命令:

choose(N, K)

例如:

choose(16,8)
# [1] 12870