逐字比较2个文本或用哈希值比较

时间:2017-01-09 12:58:09

标签: python algorithm python-3.x hash text-processing

我有一个python脚本定期在网页列表上抓取评论并将它们插入数据库。但它只插入了一条评论,但它还没有在数据库中。将我的每个评论的散列与其正文一起存储以便能够在下次我需要检查它是否已被插入时更快地查找它是否可行?而不只是故事只是他们的身体,并逐字逐句地比较?如果它更快,我应该使用什么样的哈希? Md5或......?

avarage评论约1000字。我知道即使是单个字符差异也会导致不同的哈希值,这没关系。

1 个答案:

答案 0 :(得分:3)

您可以使用Jaccard Index之类的内容。这甚至可以让您搜索部分匹配,您可以设置拒绝或选择匹配的阈值(即类似文本)

你甚至可以寻找Minhashing,这将是节省Jaccard距离的节省空间的方式,你将获得匹配的几个字符差异的好处,并产生相同的桶(检查Locality Sensitive Hashing)。您必须设置一个阈值,精确/召回问题是您必须解决的问题。