我需要在R中将大数据帧写为JSON。我使用的是rjson包。下面的方法很慢......
for (i in 1:nrow(df)) {
write.table(toJSON(df[i,]),"[FILENAME]",
row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)
}
所以我尝试了这个:
write.table(toJSON(df),"FILENAME]",
row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)
因为toJSON()无法处理长度很长的字符串,所以会出现这种情况。所以我想一次写出我的数据表块。推荐的方法是什么?如果它涉及split()
你能提供一些伪代码吗?
答案 0 :(得分:8)
这是一个很大的(ger)数据集
big = iris[rep(seq_len(nrow(iris)), 1000),]
具有toJSON(df[i,])
的for循环创建表示每行的键值对的平面文件,而toJSON(df)
生成列向量;这些是非常不同的。我们的目标是等效toJSON(df[i,])
,但格式化为单个JSON字符串。
首先将big
重新排列到列表列表lol
中,并将每个内部元素命名为(将该因子转换为字符,以免将json进一步混淆),所以{{1看起来像lol
,但在每个元素上都有名称。
list(big[1,], big[2,], ...)
然后我们使用rjson库和并行库提供的big1 <- Map(function(x, nm) setNames(x, rep(nm, length(x))), big, names(big))
big1$Species <- as.character(big1$Species)
lol <- unname(do.call(Map, c(list, big1)))
(可能是生成拆分的其他方式)将其转换为json向量
splitIndices
我们几乎可以将json块写入文件,但它们不是很合法 - 除了最后一个字符串之外的所有字符串应以“,”结尾,但以“]”结束,除了第一个字符串之外的所有字符串都应该以什么都没有,而是以“[”。
开头chunks <- 10
json <- sapply(splitIndices(length(lol), chunks), function(idx) toJSON(lol[idx]))
然后可以将这些文件写入文件
substring(json[-length(json)], nchar(json)[-length(json)]) = ","
substring(json[-1], 1, 1) = ""
组合,当然很多列类型强制的特殊情况都是未处理的,
fl <- tempfile()
writeLines(json, fl)
使用
library(parallel) ## just for splitIndices; no parallel processing here...
library(json)
fastJson <- function(df, fl, chunks=10) {
df1 = Map(function(x, nm) setNames(x, rep(nm, length(x))), df, names(df))
df1 <- lapply(df1, function(x) {
if (is(x, "factor")) as.character(x) else x
})
lol = unname(do.call(Map, c(list, df1)))
idx <- splitIndices(length(lol), chunks)
json <- sapply(idx, function(i) toJSON(lol[i]))
substring(json[-length(json)], nchar(json)[-length(json)]) <- ","
substring(json[-1], 1, 1) <- ""
writeLines(json, fl)
}
相比之下,只需将子设置为大(没有任何解析为JSON或写入文件)需要很长时间:
> fastJson(big, tempfile())
> system.time(fastJson(big, fl <- tempfile()))
user system elapsed
2.340 0.008 2.352
> system(sprintf("wc %s", fl))
10 10 14458011 /tmp/RtmpjLEh5h/file3fa75d00a57c
打开此文件以追加,每行一次,与子设置
相比不会花费太多时间> system.time(for (i in seq_len(nrow(big))) big[i,])
user system elapsed
57.632 0.088 57.835
答案 1 :(得分:1)
第一种方法的极慢是每次调用write.table
文件打开时,句柄移动到文件的底部,写入数据,然后文件关闭。如果只打开一次文件并使用文件句柄,速度会快得多。像这样:
fh <- file("[FILENAME]", "w")
for (i in 1:nrow(df)) {
write.table(toJSON(df[i,]), fh,
row.names = FALSE, col.names = FALSE, quote = FALSE)
}
close(fh)
在使用文件连接时,我也删除了append = TRUE
,因为它是隐含的(因此没有必要)。