Question

我现在正在使用R进行双样本t检验。我在互联网上看到了很多脚本示例，如下所示：

#!/usr/bin/env Rscript

dataset.1= c(498, 460, 468, 458, 530, 482, 528, 598, 456)
dataset.2= c(596, 422, 524, 454, 538, 552, 478, 564, 556)


t.test(dataset.1, dataset.2, paired=T,conf.level=0.9)

好的，这对我很有用。但我的问题是：我有如下的巨大数据输入：

GENE CANCER1 CANCER2 CANCER3 NORMAL1 NORMAL2 NORMAL3
gene1 123    232   322   898  988  899
.....
.....
gene7000  233 434 434 897 676 654

然后如何将此数据（path + xxx.txt）上传到脚本？

更重要的是，我如何在脚本中特别指出某些列？现在说我希望将data1=c(233,434,434,)和data2=c(897,676,654)与gene7000进行比较？

由于

Answer 1

应该很简单。您可以在命令行上将所需的任何参数传递给R脚本。您可以传递文件名，向量名称或列号等。要从R中获取参数，请执行以下操作：

arguments <- commandArgs(trailingOnly=TRUE)

请查看?commandArgs以获取更多信息。

Answer 2

R安装附带的R导入/导出手册，或者可用here，有很多关于将数据导入R的不同方法的信息，这最好取决于您的数据是什么样的它有多大。它可能就像使用read.table函数一样简单，或者对于使用数据库的大型数据集可能更好。

如果您使用read.table或类似数据，那么您的数据将位于数据框中，您可以使用与此类似的代码运行t测试（假设您的数据框名为mydata）：

t.test(mydata$CANCER1, mydata$NORMAL1)

运行help('[[')以获取有关提取数据对象部分的更多详细信息。

使用R进行t测试时上传大数据

2 个答案: