Question

我有两个非常大的数据集（5,000万行，130列），无法与基本软件包进行比较。因此，我必须使用ffdf。这是我第一次使用ff软件包。我正在尝试比较两个ffdf，然后将差异写入两个输出文件（“ in_file1_not_in_file2”，“ in_file2_not_in_file1”）。这是一个示例：

# For easy reproduction; normally a CSV file
set.seed(1234)
data1 <- data.frame(row.names=1:10, var1=sample(c(TRUE,FALSE), 10, replace=TRUE), var2=sample(1:8, 10, replace=TRUE), var3=as.factor(sample(c('AAA','BBB','CCC'), 10, replace=TRUE)))
data2 <- data.frame(row.names=1:10, var1=sample(c(TRUE,FALSE), 10, replace=TRUE), var2=sample(1:10, 10, replace=TRUE), var3=as.factor(sample(c('AAA','BBB','CCC'), 10, replace=TRUE)))

# Convert to an ffdf
ffdata1 <- as.ffdf(data1)
ffdata2 <- as.ffdf(data2)

所以现在我被困住了。通常，我会将所有行合并为一列，并将其相互比较。像这样：

# Normally - Combined columns
data1$CCID <- apply(data1, 1, paste, collapse='.')
data2$CCID <- apply(data2, 1, paste, collapse='.')

# Combine columns of ffdf?
ffdata1$CCID <- ??
ffdata2$CCID <- ??

# Normally - Comparison
cdata3 <- sapply(data2$CCID, FUN=function(x) { x == data1$CCID })
output1 <- data2[colSums(cdata3)>0,]
output2 <- data1[rowSums(cdata3)>0,]

# Comparison of ffdf?
ffcdata3 <- ??
ffoutput1 <- ??
ffoutput2 <- ??

我希望我完全不知道如何使用ffdf，这是可以理解的，对不起。

比较两个ffdf

0 个答案: