我正在建立一个从网站收集数据的东西。有时它必须经过> 10,000页,并用urllib2.urlopen()打开每一页需要时间。我对此并不十分充满希望,但有没有人知道从网站获取HTML的更快捷方式?
我的代码是:
import urllib, json, time
import requests
##########################
start_time = time.time()
##########################
query = "hill"
queryEncode = urllib.quote(query)
url = 'https://www.googleapis.com/customsearch/v1?key={{MY API KEY}}&cx={{cxKey}}:omuauf_lfve&fields=queries(request(totalResults))&q='+queryEncode
response = urllib.urlopen(url)
data = json.loads(str(response.read()))
##########################
elapsed_time = time.time() - start_time
print " url to json time : " + str(elapsed_time)
##########################
输出
url to json time : 4.46600008011
[Finished in 4.7s]