R:为什么read.table会停止读取文件?

时间:2010-06-10 16:25:29

标签: r

我有一个名为genes.txt的文件,我想成为一个data.frame。它有很多行,每行有三个制表符分隔的字段:

mike$ wc -l genes.txt
   42476 genes.txt

我想将此文件读入R中的data.frame。我使用read.table命令,如下所示:

genes = read.table(
    genes_file, 
    sep="\t", 
    na.strings="-", 
    fill=TRUE,
    col.names=c("GeneSymbol","synonyms","description")
)

这似乎工作正常,genes_file指向genes.txt。但是,我的data.frame中的行数明显少于文本文件中的行数:

> nrow(genes)
[1] 27896

我可以在文本文件中找到的东西:

mike$ grep "SELL" genes.txt 
SELL    CD62L|LAM1|LECAM1|LEU8|LNHR|LSEL|LYAM1|PLNHR|TQ1    selectin L

似乎不在data.frame

> grep("SELL",genes$GeneSymbol)
integer(0)

事实证明

genes = read.delim(
    genes_file,
    header=FALSE,
    na.strings="-",
    fill=TRUE,
    col.names=c("GeneSymbol","synonyms","description"),
)

工作得很好。为什么read.delim在read.table时不起作用?

如果有用,可以使用以下命令重新创建genes.txt,这些命令应该从命令行运行

curl -O ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
gzip -cd gene_info.gz | awk -Ft '$1==9606{print $3 "\t" $5 "\t" $9}' > genes.txt
但是,请注意,gene_info.gz是101MBish。

1 个答案:

答案 0 :(得分:15)

使用read.table,其中一个默认引号字符是单引号。我猜你在描述字段中有一些不匹配的单引号,并且单引号之间的所有数据被汇总到一个条目中。

使用read.delim时,defualt引号字符是双引号,因此这不是问题。

指定您的引用字符,您应该全部设置。

> genes<-read.table("genes.txt",sep="\t",quote="\"",na.strings="-",fill=TRUE, col.names=c("GeneSymbol","synonyms","description"))
> nrow(genes)
[1] 42476