使用python比较两个网页的最简单方法是什么?

时间:2011-03-08 16:47:53

标签: python comparison nlp

您好我想使用python脚本比较两个网页。 我怎么能实现它?提前谢谢!

2 个答案:

答案 0 :(得分:4)

首先,您要检索两个网页。您可以使用wget,urlretrieve等: wget Vs urlretrieve of python

其次,您想要“比较”页面。 Chinmay指出,您可以使用“差异”工具。您还可以对这两个页面进行关键字分析:

  1. 从页面解析所有关键字。例如How do I extract keywords used in text?
  2. 可选择使用以下内容的词语“词干”:
    http://pypi.python.org/pypi/stemming/1.0
  3. 使用一些数学运算来比较两个页面的关键字,例如术语频率 - 逆文档频率:http://en.wikipedia.org/wiki/Tf%E2%80%93idf,其中包含一些python工具:http://wiki.python.org/moin/InformationRetrieval

答案 1 :(得分:2)

比较你的意思是什么?如果您只想查找两个文件之间的差异,请尝试difflib,这是标准Python库的一部分。