使用散列检测重复的文本片段

时间:2015-10-18 13:51:30

标签: hash spam text-analysis

我试图检测类似的文字,以阻止垃圾邮件发送者发布带有少量更改的相同垃圾邮件。

为此,我想使用哈希而不是保存数据存储区中的所有句子。节省空间并快速查找。

我正在整理整个文本,没有标点符号或奇怪的字符,并且比较哈希来查找重复的垃圾邮件。

但是,一旦垃圾邮件发送者添加了随机值,系统就会失败。

有没有人有办法改进这个系统?我尝试了感知散列,但这似乎只对大块文本有效。

1 个答案:

答案 0 :(得分:0)

好吧,散列基本上是,你不会发现类似的'使用散列算法的文本片段,因为它们旨在完全针对两个不同的测试用例进行更改,即使差异是逗号。雪崩效应:https://en.wikipedia.org/wiki/Avalanche_effect

很好的想法删除标点符号/奇怪的字符。如果您可以找到垃圾邮件发送者添加值的位置(例如,在第1行),则可以从开头到结尾2剪切文本和哈希(只是一个想法)。 您还可以散列文本的关键字(标题,产品......)