Scrapy获取javascript的

时间:2015-09-23 17:22:12

标签: javascript python django scrapy

当尝试使用scrapy查看或抓取http://www.kw.com/kw/agent/johndoucette(或该域上的大多数页面)时,我会返回一个空白页面。查看页面源会返回一堆隐藏的javascript,但这就是它。

我尝试了很多不同的用户代理,代理,无代理,设置等(例如来自herescrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36")这不是我的设置 - 它可以从scrapy shell视图中重现(响应)命令在新安装上。我只是不知道如何忽略该脚本。

有没有办法解决这个问题?

1 个答案:

答案 0 :(得分:1)

您之所以这样,是因为该网站是通过" Incapsula"提供的,它使用了Javascript测试,然后才允许您继续浏览该页面。由于Scrapy不会处理Javascript,因此您无法获得更多信息。

要查看正在进行的操作,请打开Chrome,转到隐私,然后停用Cookie和Javascript。

该网站正在积极尝试阻止抓取,这清楚表明他们不想被抓取。