我需要抓取几千个主机的列表,并找到至少两个根据那些大于某个值的文件,作为参数给出。任何流行的(基于python的?)工具都可以提供帮助吗?
答案 0 :(得分:2)
以下是如何在HTTP服务器上获取文件大小的示例。
import urllib2
def sizeofURLResource(url):
"""
Return the size of an resource at 'url' in bytes
"""
info = urllib2.urlopen(url).info()
return info.getheaders("Content-Length")[0]
这里还有一个用于构建网络抓取工具的库:http://dev.scrapy.org/但我对此并不了解(只是老实说)。
答案 1 :(得分:1)
我是这样做的。请参阅下面的代码。
import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())