比较两条信息以找出相似之处

时间:2013-08-21 16:26:48

标签: python performance algorithm sorting logic

我有以下困境。我已经存储在数据库中的信息,我将添加它。我有以下字段:

Title
Location
Description

我想避免将相同的内容重新添加到数据库中。然而,当前设置似乎正在发生的事情是我检查它们是否完全相同但有时一个char可以出来,并且它将接受它作为两个不同的值。

是否有可能建立某种“软糖因子”,以允许两者之间的微小差异。我正在寻找更多的技术,但如果它有所不同,我正在用python进行编码。

1 个答案:

答案 0 :(得分:2)

这是经典的“脏数据”问题。目标是在数据库中只包含干净的数据,并识别重复的数据。

该技术取决于您的数据,是否可以轻松清理或是否需要一些编程逻辑。例如,姓氏“van Rossum”与“Vanrossum”相同,还是“Håstad”与“Hasted”相同?最后的实时股票价格是真实的,还是应该被抛弃的高峰?

除了应用于每个字段的规则列表之外,可能没有简单的答案。可能没有一个“软糖因子”能够修复你的所有数据。

您的最佳方法应与标题,位置和说明的已知“好”值相关。也许您的位置定义明确,您可以轻松检测到错误的位置 - 然后您需要确定正确的位置应该是什么。

常见做法包括“踢出”与规则不符的数据,以便人类可以决定,或者只是将其标记为脏,以便人类在搜索结果中出现时可以应用精神软糖因素。