使用python从谷歌搜索获得结果

时间:2015-04-04 11:56:07

标签: python json search-engine google-search google-search-api

我想从Google搜索中提取前50个结果,并获取每个搜索结果的标题和摘要。 我使用以下代码。

#!/usr/bin/python3
import json
import urllib.request, urllib.parse

def showsome(searchfor):
   query = urllib.parse.urlencode({'q': searchfor})
   url = 'http://ajax.googleapis.com/ajax/services/search/web?v=1.0&%s' % query
   search_response = urllib.request.urlopen(url)
   search_results = search_response.read().decode("utf8")
   results = json.loads(search_results)
   data = results['responseData']
   print('Total results: %s' % data['cursor']['estimatedResultCount'])
   print(data['results'])
   hits = data['results']
   print('Top %d hits:' % len(hits))
   print(hits)

for h in hits:
    print(' ',h['title'])
print(' ', h['url'])

showsome('jaguar')

但我只得到4个结果。即图像搜索前的结果出现在搜索结果页面上。 有人可以建议一个更好的方法来完成这项任务。 如果你能提供一种可以在其他搜索引擎上运行的基本方式,例如yahoo.com

,那就更好了

1 个答案:

答案 0 :(得分:0)

如上所述here,该API已被弃用。它似乎仍然可以运作,但我不会依赖它继续服务。您应该寻找替代API。

然而,每个查询的默认结果数为4.最小值为1,最大值为8,可以使用rst查询参数进行设置,即追加&rst=8得到8每个查询的结果。

您需要进行其他查询才能检索更多结果。第一个结果是使用start查询参数指定的,例如&start=4将返回第4个结果的结果。您可以使用results['responseData']['cursor']为页面编号提供起始偏移的映射,例如:

>>> pprint(results['responseData']['cursor'])
{'currentPageIndex': 0,
 'estimatedResultCount': '29600000',
 'moreResultsUrl': 'http://www.google.com/search?oe=utf8&ie=utf8&source=uds&start=0&hl=en&q=jaguar',
 'pages': [{'label': 1, 'start': '0'},
           {'label': 2, 'start': '4'},
           {'label': 3, 'start': '8'},
           {'label': 4, 'start': '12'},
           {'label': 5, 'start': '16'},
           {'label': 6, 'start': '20'},
           {'label': 7, 'start': '24'},
           {'label': 8, 'start': '28'}],
 'resultCount': '29,600,000',
 'searchResultTime': '0.19'}

详细信息可在链接的documentation中找到,请参阅标题为“标准网址参数”的部分。

雅虎的API会有所不同(我希望),所以这种方法不适用。