Question

我需要帮助，试图找出如何使用R来确定我的数据集的相对频率是否存在差异。我一直在阅读不同的可能性，但我不确定我是否做得对。我想知道的是V13和V35 gene.fragment的“Total.Clusters”列下的值是否与整个gene.fragment值显着不同。这就是我的数据，我有9700个数据点：

Total.Clusters  Singleton.clusters >1seq.clusters   gene.fragment   algorithm
5427              3767             1660             whole           uclust
5929              4277             1652             V13             uclust
3911              2312             1599             V35             uclust

为了测试正常性，我会在R中执行以下操作：

data1<-read.csv(file.choose())    
x<-data1[,c(1)])    
shapiro.test(x)
## 
## Shapiro-Wilk normality test
## data:  x
## W = 0.9224, p-value = 0.4607`

因为“Total.Clusters”列是正常的，我可以使用t.test来比较whole基因/片段值和V13和V35值吗？

我只是不确定如何做到这一点，因为我尝试了不同的东西，但我不确定哪种方法是正确的。

编辑：所以从本质上讲，我试图弄清楚5427和5929是否彼此显着不同，以及5427和3911是否彼此显着不同。

编辑：

我意识到这个问题没有多大意义。我使用了不同的数据，最后使用了R

中的chisq.test（）函数

Answer 1

所以从本质上讲，我试图弄清楚5427和5929是否彼此显着不同，以及5427和3911是否彼此显着不同。

这没有意义;你无法测试单个数字之间的显着差异。您可以测试的是whole，V13和V35的分布之间是否存在显着差异。您可以使用pairwise.t.test：

执行此操作

pairwise.t.test(data1$Total.Clusters, data1$gene.fragment, p.adjust.method="none")

查看?pairwise.t.test多个比较选项。

相对频率有差异吗？使用R.

1 个答案: