R使用RecordLinkage Package

时间:2015-01-23 16:54:29

标签: r diskspace

我试图使用R包RecordLinkage在一个拥有74,000个条目的数据框和一个包含大约350,000个条目的数据框之间查找重复条目。我使用RLBigDataLinkage生成了一个对象,rpairs,但无法完成加权位。它吐出的错误是:

Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered, : no diskspace

以下是代码:

Missing <- data.frame(Missing$fulladdr, Missing$zip, Missing$XCOORD, Missing$YCOORD)

Missing <- rename(Missing, c("Missing.fulladdr"="addr", "Missing.zip"="zip", "Missing.XCOORD"="X", "Missing.YCOORD"="Y"))

samlink <- data.frame(sam$fulladdr, sam$zip, sam$COB.SAM.Longitude, sam$COB.SAM.Latitude)

samlink <- rename(samlink, c("sam.fulladdr"="addr", "sam.zip"="zip", "sam.COB.SAM.Latitude"="Y", "sam.COB.SAM.Longitude"="X"))

rpairs <- RLBigDataLinkage(dataset1 = samlink, dataset2 = Missing, 
                          blockfld = c(2), strcmp = c(1), strcmpfun =  "jarowinkler")

rpairs_em <- emWeights(rpairs)

1 个答案:

答案 0 :(得分:0)

事实证明,这是R在Temp文件夹中创建一个大型文件的结果,从而占用了我在HD上有限的空间。我发现解决这个问题的最好方法是增加一个可以阻塞的变量数。在代码中,我将blockfld = c(2)更改为blockfld = c(2:4)当然,这仅适用于此阻止设置对数据有意义的情况。