Question

我需要抓取几千个主机的列表，并找到至少两个根据那些大于某个值的文件，作为参数给出。任何流行的（基于python的？）工具都可以提供帮助吗？

Answer 1

以下是如何在HTTP服务器上获取文件大小的示例。

import urllib2

def sizeofURLResource(url):
    """
    Return the size of an resource at 'url' in bytes
    """
    info = urllib2.urlopen(url).info()
    return info.getheaders("Content-Length")[0]

这里还有一个用于构建网络抓取工具的库：http://dev.scrapy.org/但我对此并不了解（只是老实说）。

Answer 2

我是这样做的。请参阅下面的代码。

import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())

如何为特定大小的文件抓取网页

2 个答案: