Question

大家好！假设我有一些使用此脚本获得的页面：

page = urllib2.urlopen(url).read()

在抓取网页时，如何有效（快速）检查此内容是否已被抓取？我的算法是这样的：

    seenContents = set()
then check if crawled content is in set or not

但是我不知道在该集合，哈希值等上存储什么？你能推荐什么吗？

Answer 1

内容的MD5怎么样？

import md5

contest = "some data"
m = md5.new(contents)
m.digest()