我需要从显示拍卖实时价格数据的各种网址上抓取HTML。我已经预先组装了要检查的URL列表,并且当前有一个工作脚本。问题是处理时间不是很长(每个URL约1.5-2秒)。
我正在使用带有铬驱动器的硒,并且无头运行作为提高速度的选项。最大的问题(以及我使用selenium的原因)是我使用的网站具有严格的登录安全性(CSRF令牌以及Captcha谜题)。需要登录该站点才能显示实时价格。
我不想尝试在登录时找到答案。相反,我正在做的是加载一个带头的镀铬窗口,手动登录一次,保存cookie。启动各种数量的无头镀铬窗口并加载cookie,以便我已经登录,然后进行我的业务网络抓取。这是有效的,但是,我想用urllib或一个真正的无头浏览器以某种方式实现这一点而不是使chrome无头(我觉得那会更快)。
如果我有办法手动登录并以某种方式将cookie加载到不同的无头浏览器中,那将是理想的。
谢谢。
答案 0 :(得分:0)
如果你正在寻找正常的疤痕,你可以选择类似Beautifulsoup库的东西。否则你可以去scrapy框架。但据我所知,Beautifulsoup足以满足您的要求。