应用错误收集

近似重复数据删除

时间：2019-07-15 13:45:15

标签： r join duplicates fuzzy-comparison record-linkage

假设我有一个像这样的数据集：

我需要检查可能的重复项。在此，第二行和第三行是可疑重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法都结合了吗？最终，我正在寻找一种可以在R中实现的方法。

1 个答案:

答案 0 :(得分：1)

我认为没有解决此问题的简单方法。您可以分别将每一列视为：datetime作为时间戳接近度，string作为字符串接近度（Levenshtein距离）和freq作为数字距离。然后，您可以按递增方式分别为每一列的每一行排名。在所有三个指标中排名最高的行号（最低差异）是更好的重复候选。然后，您可以选择考虑重复案件的阈值。

Java中的重复数据删除API
java高效重复数据删除
Drools Fusion重复数据删除
标签： - XMLContent重复数据删除
使用Cassandra进行重复数据删除
字节级重复数据删除实现
TSQL - 重复数据删除报告 - 分组
Guice绑定重复数据删除与FactoryModuleBuilder
Kafka压缩以实现重复数据删除
近似重复数据删除

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？