如何知道python中的两个文本是否相同

时间:2017-07-14 06:22:06

标签: python nlp text-processing

我想用python实现一个爬虫。抓取工具从多个网站收集新闻。但在网站上有一则用不同的词语描述的新闻。例如,新闻是关于一场足球比赛的结果。如何检测来自不同网站的两条新闻是否相同,并保留其中一条新闻?

1 个答案:

答案 0 :(得分:1)

您描述的问题可以映射到查找文档相似性的标准问题。在您的情况下,我想可以遵循以下步骤

1)抓取页面后,您可以使用 Beautifulsoup 获取网页上的实际文字,如上所述here

2)在您拥有要比较的页面文本后,您可以使用 gensim nltk 等库来比较它们的相似性得分。教程显示为here

3)根据您在步骤2)中获得的分数,您可以选择截止分数来确定新闻是否相同。例如如果两个文档的相似度得分大于0.95,您可能认为新闻是相同的。