使用RecordLinkage,R包

时间:2017-03-01 10:39:25

标签: r duplicates fuzzy-comparison record-linkage bigdata

我正在使用RecordLinkage R软件包来比较两个大小约为100 000的数据集。

我尝试使用代码

Rpairs<- RLBigDataLinkage(dataset1, dataset2, exclude=1, strcmpfun ="jarowinkler")

下面我附上了我用于比较的两个数据集(dataset1和dataset2)的小按钮。

Dataset1

Dataset2

执行上面的代码时,执行几分钟后,R会话终止。

我做过的事情:

  1. 我已经设置了java参数

    (选项(java.parameters = “xmx8g”)

  2. 清理磁盘空间

  3. 已执行gc()函数
  4. 由于我不会在数据集中获得与大多数情况完全匹配的任何列,因此我无法使用阻止条件。

    如何解决上述问题或者R中是否有任何其他包为大型数据集执行类似于我考虑的数据集的记录链接?

0 个答案:

没有答案