应用错误收集

在python中请求之间的时间间隔？

时间：2017-03-22 14:24:22

标签： python web-crawler python-requests google-crawlers

使用python请求模块（获取功能）我正在抓取链接，即爬虫。我使用脚本发出多个请求。由于我提出了太多要求，谷歌干预了CAPTCHA，后者在一段时间后重置。我正在使用时间模块在每次请求之后将代码置于休眠状态一段时间以避免它。我想知道什么是让脚本进入睡眠的适当时间，以便Google不会将其视为无效流量？（我正在使用大学代理服务器）

1 个答案:

答案 0 :(得分：0)

我创建此网站对正确抓取非常有帮助：h

https://www.scrapehero.com/how-to-prevent-getting-blacklisted-while-scraping/
https://webscraping.com/blog/How-to-crawl-websites-without-being-blocked/

享受！

Django中请求之间的共享对象
jQuery AJAX请求之间的时间延迟
python-apt包，获取时间pkg安装和构建时间？
使用Python请求在请求之间设置新cookie
如何在Ubuntu 14.04中正确更新请求
Python请求忽略超时
在python中请求之间的时间间隔？
按时间间隔重试请求
Gt Metrix请求之间的时间
python请求和无JavaScript的浏览器请求之间的区别？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？