当尝试使用scrapy查看或抓取http://www.kw.com/kw/agent/johndoucette(或该域上的大多数页面)时,我会返回一个空白页面。查看页面源会返回一堆隐藏的javascript,但这就是它。
我尝试了很多不同的用户代理,代理,无代理,设置等(例如来自here的scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36"
)这不是我的设置 - 它可以从scrapy shell视图中重现(响应)命令在新安装上。我只是不知道如何忽略该脚本。
有没有办法解决这个问题?
答案 0 :(得分:1)
您之所以这样,是因为该网站是通过" Incapsula"提供的,它使用了Javascript测试,然后才允许您继续浏览该页面。由于Scrapy不会处理Javascript,因此您无法获得更多信息。
要查看正在进行的操作,请打开Chrome,转到隐私,然后停用Cookie和Javascript。
该网站正在积极尝试阻止抓取,这清楚表明他们不想被抓取。