我用来从页面抓取html的功能似乎花了很多时间,实际上大大减慢了我的程序。这是非常基本的,但代码是:
def get_html(url):
print 'get_html initialising...'
open_url = urllib2.urlopen(url)
data = open_url.read()
open_url.close()
return data
timeme
结果是:
http://bloomberg.com/
get_html initialising...
(760, 'ms')
GetLinks initialising...
(121, 'ms')
SaveFiles initialising...
No meta-type match!
(116, 'ms')
非常感谢您提供的任何建议或指示,谢谢。