如何为特定大小的文件抓取网页

时间:2011-04-01 21:12:48

标签: python web-crawler filesize

我需要抓取几千个主机的列表,并找到至少两个根据那些大于某个值的文件,作为参数给出。任何流行的(基于python的?)工具都可以提供帮助吗?

2 个答案:

答案 0 :(得分:2)

以下是如何在HTTP服务器上获取文件大小的示例。

import urllib2

def sizeofURLResource(url):
    """
    Return the size of an resource at 'url' in bytes
    """
    info = urllib2.urlopen(url).info()
    return info.getheaders("Content-Length")[0]

这里还有一个用于构建网络抓取工具的库:http://dev.scrapy.org/但我对此并不了解(只是老实说)。

答案 1 :(得分:1)

我是这样做的。请参阅下面的代码。

import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())