使用R进行t测试时上传大数据

时间:2011-12-07 06:15:22

标签: r statistics

我现在正在使用R进行双样本t检验。 我在互联网上看到了很多脚本示例,如下所示:

#!/usr/bin/env Rscript

dataset.1= c(498, 460, 468, 458, 530, 482, 528, 598, 456)
dataset.2= c(596, 422, 524, 454, 538, 552, 478, 564, 556)


t.test(dataset.1, dataset.2, paired=T,conf.level=0.9)

好的,这对我很有用。但我的问题是:我有如下的巨大数据输入:

GENE CANCER1 CANCER2 CANCER3 NORMAL1 NORMAL2 NORMAL3
gene1 123    232   322   898  988  899
.....
.....
gene7000  233 434 434 897 676 654

然后如何将此数据(path + xxx.txt)上传到脚本?

更重要的是,我如何在脚本中特别指出某些列? 现在说我希望将data1=c(233,434,434,)data2=c(897,676,654)与gene7000进行比较?

由于

2 个答案:

答案 0 :(得分:1)

应该很简单。您可以在命令行上将所需的任何参数传递给R脚本。您可以传递文件名,向量名称或列号等。要从R中获取参数,请执行以下操作:

arguments <- commandArgs(trailingOnly=TRUE)

请查看?commandArgs以获取更多信息。

答案 1 :(得分:1)

R安装附带的R导入/导出手册,或者可用here,有很多关于将数据导入R的不同方法的信息,这最好取决于您的数据是什么样的它有多大。它可能就像使用read.table函数一样简单,或者对于使用数据库的大型数据集可能更好。

如果您使用read.table或类似数据,那么您的数据将位于数据框中,您可以使用与此类似的代码运行t测试(假设您的数据框名为mydata):

t.test(mydata$CANCER1, mydata$NORMAL1)

运行help('[[')以获取有关提取数据对象部分的更多详细信息。