我想知道什么是最好的/首选的PYTHON 3.x解决方案(快速执行,易于实施,指定用户代理的选项,将浏览器和版本发送到Web服务器以避免将我的IP列入黑名单)可以抓取以下所有选项的数据(根据我的理解,基于复杂性提及)。
我想学习并构建一种精疲力尽的刮擦解决方案,可以根据需要在需要时对其进行调整,以适应从项目符号1的简单任务到项目符号6的复杂任务的所有选项。
答案 0 :(得分:0)
注意:认罪在抓取之前确实阅读了每个网站的条款和条件,因为其中一些提到自动数据收集是不道德的行为,我们不应该这样做。
答案 1 :(得分:0)
Scrapy非常适合您在寻找真正的可扩展防弹解决方案。实际上,scrapy框架是python抓取任务的行业标准。
顺便说一句:我建议您避免JS渲染:所有这些东西(chromedriver,selenium,phantomjs)是爬网网站的最后一个选择。 您可以简单地通过伪造所需的请求来解析大多数ajax数据。 只需在Chrome的“网络”标签上花费更多时间即可。