我创建了一个脚本以从Google结果页面获取URL链接;该脚本运行正常,但是在Google阻止您之后,您的IP地址最多会运行3次。
我认为这是因为我的标题包含:python-requests/2.3.0 CPython/2.7.2 Windows/7
。因此,我尝试使用标头更改它,并使用此site验证结果。
这是我的标题:
headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0",
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language" : "en-US,en;q=0.5",
"Connection" : "keep-alive",}
但Google仍然认为我是机器人,因为我知道当我使用浏览器搜索时,一切正常。
如何解决此问题?
答案 0 :(得分:0)
这不是您的脚本的问题。使用脚本自动抓取搜索结果违反了每个搜索引擎的服务条款。搜索引擎会嗅出并阻止此类访问。您必须使用Google的官方API之一来获取您的数据。例如Google Custom Search或类似的东西。