如何在一次通过中刮掉超过100个谷歌页面

时间:2016-01-05 14:28:58

标签: python web-scraping html-parsing python-requests google-custom-search

我正在使用python中的请求库来获取谷歌搜索结果中的GET数据。如我提到num=10https://www.google.com.pk/#q=pizza&num=10将返回Google的前10个结果。最终https://www.google.com.pk/#q=pizza&num=100将返回100条谷歌搜索结果。

但是

如果我写的任何数字超过100,请{4}},谷歌仍然会返回前100个结果

如何在一次通过中获得超过100个?

代码:

import requests
url = 'http://www.google.com/search'
my_headers = { 'User-agent' : 'Mozilla/11.0' }
payload = { 'q' : pizza, 'start' : '0', 'num' : 200 }
r = requests.get( url, params = payload, headers = my_headers )

在“r”中,我只得到谷歌前100个结果的网址,而不是200

2 个答案:

答案 0 :(得分:4)

你可以使用谷歌更多的程序化api来获得结果而不是试图屏幕刮人类搜索界面,没有错误检查或断言这符合所有谷歌T& Cs,建议你查看详细信息使用此网址:

import requests

def search(query, pages=4, rsz=8):
    url = 'https://ajax.googleapis.com/ajax/services/search/web'
    params = {
        'v': 1.0,     # Version
        'q': query,   # Query string
        'rsz': rsz,   # Result set size - max 8
    }

    for s in range(0, pages*rsz+1, rsz):
        params['start'] = s
        r = requests.get(url, params=params)
        for result in r.json()['responseData']['results']:
            yield result

E.g。得到200条“谷歌”的结果:

>>> list(search('google', pages=24, rsz=8))
[{'GsearchResultClass': 'GwebSearch',
  'cacheUrl': 'http://www.google.com/search?q=cache:y14FcUQOGl4J:www.google.com',
  'content': 'Search the world&#39;s information, including webpages, images, videos and more. \n<b>Google</b> has many special features to help you find exactly what you&#39;re looking\xa0...',
  'title': '<b>Google</b>',
  'titleNoFormatting': 'Google',
  'unescapedUrl': 'https://www.google.com/',
  'url': 'https://www.google.com/',
  'visibleUrl': 'www.google.com'},
  ...
]

要使用Google的自定义搜索API,您需要以开发者身份注册。你得到100个免费查询(我不确定这是API调用还是它允许同一查询的分页计为1个查询)一天:

您可以使用requests进行查询:

import requests
url = 'https://www.googleapis.com/customsearch/v1'
params = {
    'key': '<key>',
    'cx': '<cse reference>',
    'q': '<search>',
    'num': 10,
    'start': 1
}

resp = requests.get(url, params=params)
results = resp.json()['items']

使用start,您可以对上述内容进行类似的分页。

您可以查看CSE的REST文档,其他参数很多:https://developers.google.com/custom-search/json-api/v1/reference/cse/list#request

Google还有一个client-api库:pip install google-api-python-client您也可以使用:

from googleapiclient import discovery
service = discovery.build('customsearch', 'v1', developerKey='<key>')
params = {
    'q': '<query>',
    'cx': '<cse reference>',
    'num': 10,
    'start': 1
}
query = service.cse().list(**params)
results = query.execute()['items']

答案 1 :(得分:-1)

您可以使用浏览器自动化来实现此目的。我用它来刮掉图像列表。使用浏览器自动化,您可以单击下一个或上一个按钮并取消结果。我无法粘贴代码。