检测文本文件中的重复项

时间:2016-03-29 14:38:04

标签: python json

我正在尝试找到检测/删除文本数据中重复项的最佳方法。重复,我的意思是那些具有非常高的相似性的文本,例如所有相等但在一个句子中。此外,长度可以变化(或多或少一个或两个句子),因此汉明距离不是一个选项。有没有办法计算相似因子?我应该使用术语频率矩阵吗?

关于我的数据:我在JSON文件中有日期,标题和正文(内容)。因此,相似系数可以包括这三个级别。

由于我正在寻找方法(而不是代码),我不认为提供数据是必要的。

亲切的问候,

1 个答案:

答案 0 :(得分:1)

您可以使用tf-idf排名方法。点击此处了解更多详情:Similarity between two text documents