从谷歌搜索刮取网址

时间:2013-07-23 16:41:33

标签: python url screen-scraping

我正在尝试编写一个代码,在google搜索某些单词时获取1000个http页面的第一个URL。我在Python中使用了this code来获取1000个第一个URL

import GoogleScraper
import urllib

urls = GoogleScraper.scrape('english teachers', number_pages=2)
for url in urls:
    print(urllib.parse.unquote(url.geturl()))

print('[!] Received %d results by asking %d pages with %d results per page' %
        (len(urls), 2, 100))`

但此代码返回0收到的结果。 还有另一种方法可以方便地从谷歌搜索中获取大量的URL吗? 我还尝试过xgoogle和pygoogle模块,但只能处理少量页面请求。

1 个答案:

答案 0 :(得分:1)

Google有一个Custom Search API,可让您每天免费进行100次查询。鉴于每页每页有10个结果,您几乎不可能在一天内完成1000个结果。 xgooglepygoogle只是这个API的包装器,因此我认为您无法通过使用它们获得更多结果。

如果您确实需要更多内容,请考虑使用其他API密钥创建另一个Google帐户,这将有效地使您的限制倍增。如果你的结果稍差,你可以试试Bing的Search API(他们每月提供5000个请求)。