相对频率有差异吗?使用R.

时间:2014-05-18 20:11:51

标签: r

我需要帮助,试图找出如何使用R来确定我的数据集的相对频率是否存在差异。我一直在阅读不同的可能性,但我不确定我是否做得对。我想知道的是V13和V35 gene.fragment的“Total.Clusters”列下的值是否与整个gene.fragment值显着不同。这就是我的数据,我有9700个数据点:

Total.Clusters  Singleton.clusters >1seq.clusters   gene.fragment   algorithm
5427              3767             1660             whole           uclust
5929              4277             1652             V13             uclust
3911              2312             1599             V35             uclust

为了测试正常性,我会在R中执行以下操作:

data1<-read.csv(file.choose())    
x<-data1[,c(1)])    
shapiro.test(x)
## 
## Shapiro-Wilk normality test
## data:  x
## W = 0.9224, p-value = 0.4607`

因为“Total.Clusters”列是正常的,我可以使用t.test来比较whole基因/片段值和V13和V35值吗?

我只是不确定如何做到这一点,因为我尝试了不同的东西,但我不确定哪种方法是正确的。

编辑:所以从本质上讲,我试图弄清楚5427和5929是否彼此显着不同,以及5427和3911是否彼此显着不同。

编辑:

我意识到这个问题没有多大意义。我使用了不同的数据,最后使用了R

中的chisq.test()函数

1 个答案:

答案 0 :(得分:2)

  

所以从本质上讲,我试图弄清楚5427和5929是否彼此显着不同,以及5427和3911是否彼此显着不同。

这没有意义;你无法测试单个数字之间的显着差异。您可以测试的是wholeV13V35的分布之间是否存在显着差异。您可以使用pairwise.t.test

执行此操作
pairwise.t.test(data1$Total.Clusters, data1$gene.fragment, p.adjust.method="none")

查看?pairwise.t.test多个比较选项。