使用相同的命令快速读取不同类型的数据,更好的分离器猜测

时间:2015-06-26 09:20:20

标签: r data.table fread tsv

我有LD数据,有时来自PLINK的原始输出文件如下(注意空格 - 用于使输出漂亮,注意前导和尾随空格):

write.table(read.table(text="
 CHR_A     BP_A          SNP_A  CHR_B         BP_B          SNP_B           R2 
 1    154834183      rs1218582      1    154794318      rs9970364    0.0929391 
 1    154834183      rs1218582      1    154795033     rs56744813      0.10075 
 1    154834183      rs1218582      1    154797272     rs16836414     0.106455 
 1    154834183      rs1218582      1    154798550    rs200576863    0.0916789 
 1    154834183      rs1218582      1    154802379     rs11264270     0.176911 ",sep="x"),
          "Type1.txt",col.names=FALSE,row.names=FALSE,quote=FALSE)  

或者很好地标签分隔文件:

write.table(read.table(text="
CHR_A BP_A SNP_A CHR_B BP_B SNP_B R2
1 154834183 rs1218582 1 154794318 rs9970364 0.0929391
1 154834183 rs1218582 1 154795033 rs56744813 0.10075
1 154834183 rs1218582 1 154797272 rs16836414 0.106455
1 154834183 rs1218582 1 154798550 rs200576863 0.0916789
1 154834183 rs1218582 1 154802379 rs11264270 0.176911", sep=" "),
            "Type2.txt",col.names=FALSE,row.names=FALSE,quote=FALSE,sep="\t")

read.csv 适用于这两种类型的数据:

read.csv("Type1.txt", sep="")
read.csv("Type2.txt", sep="")

fread 仅适用于Type2:

fread("Type1.txt")
fread("Type2.txt")

文件很大,有数百万行,因此无法使用read.csv选项。有没有办法让fread 猜测更好?其他包/功能建议?

我可以使用readLines然后猜测文件的类型,或者使用系统调用然后fread整理文件,但这会增加我试图避免的开销。

编辑:SessionInfo

R version 3.2.0 (2015-04-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

3 个答案:

答案 0 :(得分:2)

我不认为fread本身就具备这种能力。然而,系统命令选项可以工作,额外的复制成本通常是值得的:

fread("powershell \"cat Type1.txt | % { $_ -replace ' +',',' } | % { $_ -replace '^,|,$','' }\"")
#   CHR_A      BP_A     SNP_A CHR_B      BP_B       SNP_B        R2
#1:     1 154834183 rs1218582     1 154794318   rs9970364 0.0929391
#2:     1 154834183 rs1218582     1 154795033  rs56744813 0.1007500
#3:     1 154834183 rs1218582     1 154797272  rs16836414 0.1064550
#4:     1 154834183 rs1218582     1 154798550 rs200576863 0.0916789
#5:     1 154834183 rs1218582     1 154802379  rs11264270 0.1769110

答案 1 :(得分:1)

修复了devel版本,v1.9.5。使用devel(/ upgrade)或等待一段时间使它命中CRAN为v1.9.6:

require(data.table) # v1.9.5+
ans <- fread("Type1.txt")
#    CHR_A      BP_A     SNP_A CHR_B      BP_B       SNP_B        R2
# 1:     1 154834183 rs1218582     1 154794318   rs9970364 0.0929391
# 2:     1 154834183 rs1218582     1 154795033  rs56744813 0.1007500
# 3:     1 154834183 rs1218582     1 154797272  rs16836414 0.1064550
# 4:     1 154834183 rs1218582     1 154798550 rs200576863 0.0916789
# 5:     1 154834183 rs1218582     1 154802379  rs11264270 0.1769110

fread()在其他参数/​​错误修复中获得了strip.white(默认= TRUE)。有关详细信息,请参阅项目页面上的README文件。

类型也被正确识别。

sapply(ans, class)
#       CHR_A        BP_A       SNP_A       CHR_B        BP_B       SNP_B          R2 
#   "integer"   "integer" "character"   "integer"   "integer" "character"   "numeric" 

答案 2 :(得分:0)

您可以尝试包读取器。可在Cran或github上使用。

如果这对您有所帮助,请阅读这些小插曲。我发现它正确地读取了大多数csv,包括日期,不需要指定stringsAsFactors = False。

但请阅读与fread()的比较