Question

我是stackoverflow的新成员，我开始在R工作，所以我需要一些帮助！

我有一个包含740行和500 000列的文件，由制表符分隔，格式为.txt。文件大小约为1.2GB。该文件包含有关牛的基因型的信息。我需要将此文件读入R程序，以对表型数据进行关联研究分析。我无法在R中导入这个大文件。有人知道这样做的命令吗？只是一个用于导入此文件的命令并在R中读取它？

我的系统：i5和6Gb的RAM内存。

Answer 1

read.table（）就是你所需要的。你的文件有标题吗？

在Linux上（文件中没有标题）： mydata = read.table("/home/username/genotype.txt", header=FALSE)

在Linux上（文件中包含标题）： mydata = read.table("/home/username/genotype.txt", header=TRUE)

在Windows上（文件中没有标题）： mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)

在Windows上（文件中包含标题）： mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)

read.table()默认使用tab作为分隔符，但您可以指定参数sep =“，”（或sep =“|”etc）来指定不同的分隔符。

Answer 2

在R中

，您可以输入?read.csv和?read.table，它们会为您提供这些功能的帮助文件。

然后，您可以将此函数的输出分配给变量，该变量将是您的数据框。

例如：

  myDataFrame <- read.csv("path/to/file.txt", sep="\t")

Answer 3

其他答案解决了将数据读入R的一般问题，但您的数据属于特定类型; CRAN和Bioconductor以及in the wild提供了一些优秀的“特定于域名”的广告资源。这些包将有自己的方式输入这些数据，可能是从您当前的表示转换而来，但可能会在有效处理和执行常见操作方面带来显着的好处。更好地追求这些，同时学习如何使用R的一般特征。

基因型数据 - 如何使用R导入

3 个答案: