我有一个包含大量数据的大文件,我想将其读入数据框,但发现了一些无效的行。这些无效行导致read.table中断。我尝试以下方法来跳过无效行,但似乎性能非常差。
counts<-count.fields(textConnection(lines),sep="\001")
raw_data<-read.table(textConnection(lines[counts == 34]), sep="\001")
有没有更好的方法来实现这一目标?谢谢
答案 0 :(得分:18)
使用@PaulHiemstra的样本数据:
read.table("test.csv", sep = ";", fill=TRUE)
然后你按照自己的意愿照顾那些。
答案 1 :(得分:5)
你可以做的是迭代文件中的行,并且只添加具有正确长度的行。
我定义了以下测试csv文件:
1;2;3;4
1;2;3;4
1;2;3
1;2;3;4
使用read.table
失败:
> read.table("test.csv", sep = ";")
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
line 3 did not have 4 elements
现在是一种迭代方法:
require(plyr)
no_lines = 4
correct_length = 4
file_con = file("test.csv", "r")
result = ldply(1:no_lines, function(line) {
dum = strsplit(readLines(file_con, n = 1), split = ";")[[1]]
if(length(dum) == correct_length) {
return(dum)
} else {
cat(sprintf("Skipped line %s\n", line))
return(NULL)
}
})
close(file_con)
> result
V1 V2 V3 V4
1 1 2 3 4
2 1 2 3 4
3 1 2 3 4
当然,这是一个简单的例子,因为文件非常小。让我们创建一个更具挑战性的例子来充当基准。
# First file with invalid rows
norow = 10e5 # number of rows
no_lines = round(runif(norow, min = 3, max = 4))
no_lines[1] = correct_length
file_content = ldply(no_lines, function(line) paste(1:line, collapse = ";"))
writeLines(paste(file_content[[1]], sep = "\n"), "big_test.csv")
# Same length with valid rows
file_content = ldply(rep(4, norow), function(line) paste(1:line, collapse = ";"))
writeLines(paste(file_content[[1]], sep = "\n"), "big_normal.csv")
现在是基准
# Iterative approach
system.time({file_con <- file("big_test.csv", "r")
result_test <- ldply(1:norow, function(line) {
dum = strsplit(readLines(file_con, n = 1), split = ";")[[1]]
if(length(dum) == correct_length) {
return(dum)
} else {
# Commenting this speeds up by 30%
#cat(sprintf("Skipped line %s\n", line))
return(NULL)
}
})
close(file_con)})
user system elapsed
20.559 0.047 20.775
# Normal read.table
system.time(result_normal <- read.table("big_normal.csv", sep = ";"))
user system elapsed
1.060 0.015 1.079
# read.table with fill = TRUE
system.time({result_fill <- read.table("big_test.csv", sep = ";", fill=TRUE)
na_rows <- complete.cases(result_fill)
result_fill <- result_fill[-na_rows,]})
user system elapsed
1.161 0.033 1.203
# Specifying which type the columns are (e.g. character or numeric)
# using the colClasses argument.
system.time({result_fill <- read.table("big_test.csv", sep = ";", fill=TRUE,
colClasses = rep("numeric", 4))
na_rows <- complete.cases(result_fill)
result_fill <- result_fill[-na_rows,]})
user system elapsed
0.933 0.064 1.001
因此迭代方法相当慢,但100万行的20秒可能是可以接受的(尽管这取决于您对可接受的定义)。特别是当您只需要这一次,而不是使用save
进行保存以便以后检索。 @Paolo建议的解决方案几乎与正常调用read.table
一样快。使用NA
消除包含错误列数(因此complete.cases
)的行。指定列的哪些类可以进一步提高性能,我认为当列数和行数变大时,这种效果会更大。
因此,最后,最好的选择是将read.table
与fill = TRUE
一起使用,同时指定列的类。使用ldply
的迭代方法只是一个很好的选择,如果你想要更灵活地选择如何读取行,例如仅当某个值高于阈值时才读取该行。但是可能通过将所有数据读入R而不是创建子集可以更快地完成。只有当数据大于你的RAM时,我才能想象迭代方法有其优点。