应用错误收集

检测文本文件中的重复项

时间：2016-03-29 14:38:04

标签： python json

我正在尝试找到检测/删除文本数据中重复项的最佳方法。重复，我的意思是那些具有非常高的相似性的文本，例如所有相等但在一个句子中。此外，长度可以变化（或多或少一个或两个句子），因此汉明距离不是一个选项。有没有办法计算相似因子？我应该使用术语频率矩阵吗？

关于我的数据：我在JSON文件中有日期，标题和正文（内容）。因此，相似系数可以包括这三个级别。

由于我正在寻找方法（而不是代码），我不认为提供数据是必要的。

亲切的问候，

1 个答案:

答案 0 :(得分：1)

您可以使用tf-idf排名方法。点击此处了解更多详情：Similarity between two text documents