Question

我创建了一个脚本以从Google结果页面获取URL链接;该脚本运行正常，但是在Google阻止您之后，您的IP地址最多会运行3次。

我认为这是因为我的标题包含：python-requests/2.3.0 CPython/2.7.2 Windows/7。因此，我尝试使用标头更改它，并使用此site验证结果。

这是我的标题：

headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0",
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language" : "en-US,en;q=0.5",
"Connection" : "keep-alive",}

但Google仍然认为我是机器人，因为我知道当我使用浏览器搜索时，一切正常。

如何解决此问题？

Answer 1

这不是您的脚本的问题。使用脚本自动抓取搜索结果违反了每个搜索引擎的服务条款。搜索引擎会嗅出并阻止此类访问。您必须使用Google的官方API之一来获取您的数据。例如Google Custom Search或类似的东西。

Python请求模块问题

1 个答案: