我是stackoverflow的新成员,我开始在R工作,所以我需要一些帮助!
我有一个包含740行和500 000列的文件,由制表符分隔,格式为.txt。文件大小约为1.2GB。该文件包含有关牛的基因型的信息。我需要将此文件读入R程序,以对表型数据进行关联研究分析。我无法在R中导入这个大文件。有人知道这样做的命令吗?只是一个用于导入此文件的命令并在R中读取它?
我的系统:i5和6Gb的RAM内存。
答案 0 :(得分:3)
read.table()就是你所需要的。你的文件有标题吗?
在Linux上(文件中没有标题):
mydata = read.table("/home/username/genotype.txt", header=FALSE)
在Linux上(文件中包含标题):
mydata = read.table("/home/username/genotype.txt", header=TRUE)
在Windows上(文件中没有标题):
mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)
在Windows上(文件中包含标题):
mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)
read.table()
默认使用tab作为分隔符,但您可以指定参数sep =“,”(或sep =“|”etc)来指定不同的分隔符。
答案 1 :(得分:1)
,您可以输入?read.csv
和?read.table
,它们会为您提供这些功能的帮助文件。
然后,您可以将此函数的输出分配给变量,该变量将是您的数据框。
例如:
myDataFrame <- read.csv("path/to/file.txt", sep="\t")
答案 2 :(得分:1)
其他答案解决了将数据读入R的一般问题,但您的数据属于特定类型; CRAN和Bioconductor以及in the wild提供了一些优秀的“特定于域名”的广告资源。这些包将有自己的方式输入这些数据,可能是从您当前的表示转换而来,但可能会在有效处理和执行常见操作方面带来显着的好处。更好地追求这些,同时学习如何使用R的一般特征。