我有三个来自ChIP-seq实验的基因组峰区的不同床文件。我正在使用R库phyper
来进行超几何测试。为此,我需要样本大小的值,样本中的重叠区域,种群大小以及人口中重叠区域的预期数量。
获得种群大小(全基因组中峰区数)的一种方法是基因组大小除以峰区的中值长度。但是,我不确定整个群体(基因组)中重叠区域的数量是多少。
换句话说,对于phyper
输入,我需要四个值:
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
where, n = x - m
q =样本中的成功事件数。在我的情况下,它是3床文件的重叠峰区域。
m =人口成功的数量。在这种情况下,如果我们采用整个基因组,它是可能的重叠峰区域的值。我没有这个价值。
x =整个人口中的峰值区域数量。就我而言,它是整个基因组中可能的峰区数量。我也没有这个价值。
k =样本量。在我的情况下,它是3个床文件中没有重复的峰值区域的总数。
现在,我的问题是如何生成x
和m
的值来进行超几何测试。或者,这是最好的方法吗?提前致谢。