Content-Seen检查Python

时间:2012-05-21 12:26:34

标签: python hash web-crawler web-scraping

大家好!假设我有一些使用此脚本获得的页面:

page = urllib2.urlopen(url).read()

在抓取网页时,如何有效(快速)检查此内容是否已被抓取?我的算法是这样的:

    seenContents = set()
then check if crawled content is in set or not

但是我不知道在该集合,哈希值等上存储什么?你能推荐什么吗?

1 个答案:

答案 0 :(得分:4)

内容的MD5怎么样?

import md5

contest = "some data"
m = md5.new(contents)
m.digest()