应用错误收集

我需要从显示拍卖实时价格数据的各种网址上抓取HTML。我已经预先组装了要检查的URL列表，并且当前有一个工作脚本。问题是处理时间不是很长（每个URL约1.5-2秒）。

我正在使用带有铬驱动器的硒，并且无头运行作为提高速度的选项。最大的问题（以及我使用selenium的原因）是我使用的网站具有严格的登录安全性（CSRF令牌以及Captcha谜题）。需要登录该站点才能显示实时价格。

我不想尝试在登录时找到答案。相反，我正在做的是加载一个带头的镀铬窗口，手动登录一次，保存cookie。启动各种数量的无头镀铬窗口并加载cookie，以便我已经登录，然后进行我的业务网络抓取。这是有效的，但是，我想用urllib或一个真正的无头浏览器以某种方式实现这一点而不是使chrome无头（我觉得那会更快）。

如果我有办法手动登录并以某种方式将cookie加载到不同的无头浏览器中，那将是理想的。

谢谢。

处理URL更快Python

1 个答案: