读取多个.dat文件作为列表并将其另存为R中的.RDATA文件

时间:2019-04-15 15:14:54

标签: r purrr read.table rdata dat-protocol

我想从目录中导入多个.DAT文件,并将它们作为列表元素,然后将它们另存为.RDATA文件。

我尝试了以下代码

files <- dir(pattern = "*.DAT")
library(tidyverse)
Data1 <- 
  files %>%
    map(~ read.table(file = ., fill = TRUE))

有时会起作用,而会使其他人失败。这些文件也可以在this link上使用。我想读取所有文件,并将它们以相同的名称保存为.RDATA

2 个答案:

答案 0 :(得分:1)

由于链接的数据有些不整洁,因此我将基于以下示例数据向您展示您问题的核心问题的解决方案:

(name1 <- name2 <- name3 <- name4 <- name5 <- data.frame(matrix(1:12, 3, 4)))
#   X1 X2 X3 X4
# 1  1  4  7 10
# 2  2  5  8 11
# 3  3  6  9 12

我们将数据保存到您的工作目录名为"test"的子目录中。

l <- mget(ls(pattern="^name"))
DIR <- "test"
# dir.create(DIR)  # leave out if dir already exists
sapply(1:length(l), function(x) 
  write.table(l[[x]], file=paste0(DIR, "/", names(l)[x], ".dat"), row.names=FALSE))

现在我们来看看"test"里面的内容。

dir(DIR)
# [1] "name1.dat" "name2.dat" "name3.dat" "name4.dat" "name5.dat"

现在,我们按模式将文件导入目录中。我使用rio::import_list,它很好地将文件导入到列表中,并在其中使用data.table::fread。但是您自己的代码也可以正常工作。

# rm(list=ls())  # commented out for user safety
L <- rio::import_list(paste0(DIR, "/", dir(DIR, pattern="\\.dat$")), format="tsv")

要将它们另存为.Rdata,我们想动态assign使用list中的save()选项获得的名称。

sapply(seq_along(L), function(x) {
  tmp <- L[[x]]
  assign(names(L)[x], tmp)
  save(list=names(L)[x], file=paste0(DIR, "/", names(L)[x], ".Rdata"))
})

当我们列出目录时,我们看到数据已创建。

dir(DIR)
# [1] "name1.dat"   "name1.Rdata" "name2.dat"   "name2.Rdata" "name3.dat"   "name3.Rdata"
# [7] "name4.dat"   "name4.Rdata" "name5.dat"   "name5.Rdata"

现在让我们看看对象名称是否也正确创建:

# rm(list=ls())  # commented out for user safety
load("test/name1.Rdata")
ls()
# [1] "name1"
name1
#   X1 X2 X3 X4
# 1  1  4  7 10
# 2  2  5  8 11
# 3  3  6  9 12

是哪种情况。

附加选项

我们也可以尝试使用rvest采取更直接的方法。首先,我们获取数据名称:

library(rvest)
dat.names <- html_attr(html_nodes(read_html(
  "https://www2.stat.duke.edu/courses/Spring03/sta113/Data/Hand/Hand.html"),
  "a"), "href")

并创建单个链接:

links <- as.character(sapply(dat.names, function(x)
  paste0("https://www2.stat.duke.edu/courses/Spring03/sta113/Data/Hand/", x)))

其余基本上与上面相同:

DIR <- "test"
# dir.create(DIR)  # leave out if dir already exists

library(rio)
system.time(L <- import_list(links, format="tsv") ) # this will take a minute
sapply(seq_along(L), function(x) {
  tmp <- L[[x]]
  assign(names(L)[x], tmp)
  save(list=names(L)[x], file=paste0(DIR, "/", names(L)[x], ".Rdata"))
})

# rm(list=ls())  # commented out for user safety
load("test/clinical.Rdata")  # test a data set
clinical
#    V1  V2  V3
# 1  26  31  57
# 2  51  59 110
# 3  21  11  32
# 4  40  34  74
# 5 138 135 273

但是,就像引言中前面提到的那样,数据在某种程度上有点不整洁,您可能必须单独处理它们并按情况调整代码。

答案 1 :(得分:0)

这应该使您接近。它从目录中读取所有.dat文件,并以适当的名称将它们另存为.RData文件。缺点是,在R中打开它们时,它们会保留“ temp.file”名称,因此您必须手动重命名它们,或者一次只打开一个。不知道如何解决这个问题。

file.list <- lapply(1:length(dir()), function(x) read.delim(dir()[x], header=FALSE))
names.list <- lapply(1:length(dir()), function(x) gsub(".dat", "", dir()[x]))

for(i in 1:length(file.list)){
  temp.file <- file.list[[i]]
  temp.name <- paste(names.list[[i]], ".RData", sep="")
  save(temp.file, file=temp.name)
}