我的数据采用以下格式,并包含特定的统计信息
site LRStat
1 3.580728
2 2.978038
3 5.058644
4 3.699278
5 4.349046
这只是数据的一个示例。
然后我通过置换随机数据对来获得零LR分布。我用它来绘制直方图,其中y轴为频率,x轴为LR统计量。如何根据零点分布确定关键的p值截止点(如下图所示)?答案 0 :(得分:3)
您现在拥有LR值的采样分布。 R中的quantile
函数可以估算出您喜欢的“临界值”。例如,如果您认为您想要传统的0.05“p值”,您可以使用名为LR_df的数据帧进行说明,并发出以下命令:
quantile( LR_df[ , 'LRStat'] , 0.95)
如果您想要图中的所有“概率”,您将使用与统一互补的值向量。以下代码为您提供LSstat
值,其中给定比例的样本高于该值。
quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) )
p值只是零假设下检验统计量的抽样分布。在这种情况下,您的零假设是LRstats
均匀分布。 (我知道这样说听起来很奇怪,但如果你想与统计学家争论,那就得到http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421的副本。)截止值的p值选择取决于科学或商业环境。如果你正在评估一个投资机会,截止可能是0.15,但如果你想找到新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域在他们的文献中有很多垃圾(即无法重现结果)因为它们在统计学方法上不够严格。