我需要帮助,试图找出如何使用R
来确定我的数据集的相对频率是否存在差异。我一直在阅读不同的可能性,但我不确定我是否做得对。我想知道的是V13和V35 gene.fragment的“Total.Clusters”列下的值是否与整个gene.fragment值显着不同。这就是我的数据,我有9700个数据点:
Total.Clusters Singleton.clusters >1seq.clusters gene.fragment algorithm
5427 3767 1660 whole uclust
5929 4277 1652 V13 uclust
3911 2312 1599 V35 uclust
为了测试正常性,我会在R中执行以下操作:
data1<-read.csv(file.choose())
x<-data1[,c(1)])
shapiro.test(x)
##
## Shapiro-Wilk normality test
## data: x
## W = 0.9224, p-value = 0.4607`
因为“Total.Clusters”列是正常的,我可以使用t.test来比较whole
基因/片段值和V13和V35值吗?
我只是不确定如何做到这一点,因为我尝试了不同的东西,但我不确定哪种方法是正确的。
编辑:所以从本质上讲,我试图弄清楚5427和5929是否彼此显着不同,以及5427和3911是否彼此显着不同。
编辑:
我意识到这个问题没有多大意义。我使用了不同的数据,最后使用了R
中的chisq.test()函数答案 0 :(得分:2)
所以从本质上讲,我试图弄清楚5427和5929是否彼此显着不同,以及5427和3911是否彼此显着不同。
这没有意义;你无法测试单个数字之间的显着差异。您可以测试的是whole
,V13
和V35
的分布之间是否存在显着差异。您可以使用pairwise.t.test
:
pairwise.t.test(data1$Total.Clusters, data1$gene.fragment, p.adjust.method="none")
查看?pairwise.t.test
多个比较选项。