标签: python xpath scrapy scrapy-spider
我正在尝试抓取此网址“http://www.funkytrunks.com/715-clearance”
我的xpath如下,
//a[@class="product_img_link"]//@href
当我使用Scrapy Shell时,它返回122行,在浏览器中返回135行。这是一个很奇怪的问题。我使用response.body检查了html并将其保存到HTML文件并在浏览器中打开并运行xpath并且它运行良好。
response.body
任何帮助都应该受到赞赏。
答案 0 :(得分:0)
嗯,Scrapy没有解析Javascript,这可能是你得到这种不匹配的原因;一些Javascript代码可能会插入那些额外的hrefs。
如果是这种情况 - 并且如果那些缺少的href是相关的 - 您需要使用Selenium或完全放弃Scrapy并使用类似Phantomjs的内容,例如< / p>