scrapy shell返回不同的结果,脚本返回不同

时间:2014-06-07 09:02:20

标签: python xpath scrapy scrapy-spider

我正在尝试抓取此网址“http://www.funkytrunks.com/715-clearance

我的xpath如下,

//a[@class="product_img_link"]//@href

当我使用Scrapy Shell时,它返回122行,在浏览器中返回135行。这是一个很奇怪的问题。我使用response.body检查了html并将其保存到HTML文件并在浏览器中打开并运行xpath并且它运行良好。

任何帮助都应该受到赞赏。

1 个答案:

答案 0 :(得分:0)

嗯,Scrapy没有解析Javascript,这可能是你得到这种不匹配的原因;一些Javascript代码可能会插入那些额外的hrefs。

如果是这种情况 - 并且如果那些缺少的href是相关的 - 您需要使用Selenium或完全放弃Scrapy并使用类似Phantomjs的内容,例如< / p>