javascript - Scrapy获取javascript的

Scrapy获取javascript的

时间：2015-09-23 17:22:12

标签： javascript python django scrapy

当尝试使用scrapy查看或抓取http://www.kw.com/kw/agent/johndoucette（或该域上的大多数页面）时，我会返回一个空白页面。查看页面源会返回一堆隐藏的javascript，但这就是它。

我尝试了很多不同的用户代理，代理，无代理，设置等（例如来自here的scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36"）这不是我的设置 - 它可以从scrapy shell视图中重现（响应）命令在新安装上。我只是不知道如何忽略该脚本。

有没有办法解决这个问题？

1 个答案:

答案 0 :(得分：1)

您之所以这样，是因为该网站是通过＆＃34; Incapsula＆＃34;提供的，它使用了Javascript测试，然后才允许您继续浏览该页面。由于Scrapy不会处理Javascript，因此您无法获得更多信息。

要查看正在进行的操作，请打开Chrome，转到隐私，然后停用Cookie和Javascript。

该网站正在积极尝试阻止抓取，这清楚表明他们不想被抓取。