基因型数据 - 如何使用R导入

时间:2012-12-07 19:44:08

标签: r file import

我是stackoverflow的新成员,我开始在R工作,所以我需要一些帮助!

我有一个包含740行和500 000列的文件,由制表符分隔,格式为.txt。文件大小约为1.2GB。该文件包含有关牛的基因型的信息。我需要将此文件读入R程序,以对表型数据进行关联研究分析。我无法在R中导入这个大文件。有人知道这样做的命令吗?只是一个用于导入此文件的命令并在R中读取它?

我的系统:i5和6Gb的RAM内存。

3 个答案:

答案 0 :(得分:3)

read.table()就是你所需要的。你的文件有标题吗?

在Linux上(文件中没有标题): mydata = read.table("/home/username/genotype.txt", header=FALSE)

在Linux上(文件中包含标题): mydata = read.table("/home/username/genotype.txt", header=TRUE)

在Windows上(文件中没有标题): mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)

在Windows上(文件中包含标题): mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)

read.table()默认使用tab作为分隔符,但您可以指定参数sep =“,”(或sep =“|”etc)来指定不同的分隔符。

答案 1 :(得分:1)

在R中

,您可以输入?read.csv?read.table,它们会为您提供这些功能的帮助文件。

然后,您可以将此函数的输出分配给变量,该变量将是您的数据框。

例如:

  myDataFrame <- read.csv("path/to/file.txt", sep="\t")

答案 2 :(得分:1)

其他答案解决了将数据读入R的一般问题,但您的数据属于特定类型; CRANBioconductor以及in the wild提供了一些优秀的“特定于域名”的广告资源。这些包将有自己的方式输入这些数据,可能是从您当前的表示转换而来,但可能会在有效处理和执行常见操作方面带来显着的好处。更好地追求这些,同时学习如何使用R的一般特征。