我试图使用R包RecordLinkage在一个拥有74,000个条目的数据框和一个包含大约350,000个条目的数据框之间查找重复条目。我使用RLBigDataLinkage生成了一个对象,rpairs,但无法完成加权位。它吐出的错误是:
Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered, :
no diskspace
以下是代码:
Missing <- data.frame(Missing$fulladdr, Missing$zip, Missing$XCOORD, Missing$YCOORD)
Missing <- rename(Missing, c("Missing.fulladdr"="addr", "Missing.zip"="zip", "Missing.XCOORD"="X", "Missing.YCOORD"="Y"))
samlink <- data.frame(sam$fulladdr, sam$zip, sam$COB.SAM.Longitude, sam$COB.SAM.Latitude)
samlink <- rename(samlink, c("sam.fulladdr"="addr", "sam.zip"="zip", "sam.COB.SAM.Latitude"="Y", "sam.COB.SAM.Longitude"="X"))
rpairs <- RLBigDataLinkage(dataset1 = samlink, dataset2 = Missing,
blockfld = c(2), strcmp = c(1), strcmpfun = "jarowinkler")
rpairs_em <- emWeights(rpairs)
答案 0 :(得分:0)
事实证明,这是R在Temp文件夹中创建一个大型文件的结果,从而占用了我在HD上有限的空间。我发现解决这个问题的最好方法是增加一个可以阻塞的变量数。在代码中,我将blockfld = c(2)
更改为blockfld = c(2:4)
当然,这仅适用于此阻止设置对数据有意义的情况。