Question

有一个data.frame附加到现有文件。当它被write.table函数追加时，它可能会导致重复的记录进入文件。以下是示例代码：

df1<-data.frame(name=c('a','b','c'), a=c(1,2,2))
write.csv(df1, "export.csv", row.names=FALSE, na="NA"); 

#"export.csv" keeps two copies of df1
write.table(df1,"export.csv", row.names=F,na="NA",append=T, quote= FALSE, sep=",", col.names=F);

理想情况下，输出文件应该只保留df1的一个副本。但write.table函数没有任何重复检查参数。

感谢您提前提出任何建议。

Answer 1

您可以使用新的data.frame从文件rbind读取data.frame并检查重复值。为了提高写入效率，只附加非重复行。

如果您提出这个问题是因为您正在处理大数据集并且需要考虑读/写时间，请查看data.table和fread个包。

# initial data.frame
df1<-data.frame(name=c('a','b','c'), a=c(1,2,2))
write.csv(df1, "export.csv", row.names=FALSE, na="NA")

# a new data.frame with a couple of duplicate rows
df2<-data.frame(name=c('a','b','c'), a=c(1,2,3))
dfRead<-read.csv("export.csv") # read the file
all<-rbind(dfRead, df2) # rbind both data.frames
# get only the non duplicate rows from the new data.frame
nonDuplicate <- all[!duplicated(all)&c(rep(FALSE, dim(dfRead)[1]), rep(TRUE, dim(df2)[1])), ]
# append the file with the non duplicate rows
write.table(nonDuplicate,"export.csv", row.names=F,na="NA",append=T, quote= FALSE, sep=",", col.names=F)

Answer 2

> # Original Setup ----------------------------------------------------------
> df1 <- data.frame(name = c('a','b','c'), a = c(1,2,2))
> write.csv(df1, "export.csv", row.names=FALSE, na="NA"); 
> 
> # Add Some Data -----------------------------------------------------------
> df1[,1]  <- as.character(df1[,1])
> df1[,2]  <- as.numeric(df1[,2])
> df1[4,1] <- 'd'
> df1[4,2] <- 3
> 
> # Have a Look at It -------------------------------------------------------
> head(df1)
  name a
1    a 1
2    b 2
3    c 2
4    d 3
> 
> # Write It Out Without Duplication ----------------------------------------
> write.table(df1, "export.csv", row.names=F, na="NA", 
+             append = F, quote= FALSE, sep = ",", col.names = T)
> 
> # Proof It Works ----------------------------------------------------------
> proof <- read.csv("export.csv")
> head(proof)
  name a
1    a 1
2    b 2
3    c 2
4    d 3

您可以选择关注建议rbind的问题的评论，或者只使用write.csv或write.table和append = T选项，确保正确处理行和列名。

但是，我还建议您使用readRDS和saveRDS并覆盖rds个对象，而不是将其作为最佳做法。 Hadley和其他顶级名称推荐使用RDS。

是否有一种有效的方法可以在R中附加到现有的csv文件而不重复？

2 个答案: