Scrapy和XPath从Amazon提取评论

时间:2012-04-15 21:43:17

标签: python xpath scrapy

我对python和scrapy相对较新,并且在我正在努力解决的问题上需要一些帮助。 我正在尝试使用scrapy和XPath抓取亚马逊并提取特定产品的用户评论。 我想询问是否有比我现有的更优雅的解决方案。

假设我想从this address获取评论。 注释页面的结构对提取看起来不是很友好(使用firebug,你可以看到没有特定的标签只围绕注释区域)。 目前我正在使用以下选择器:hxs.select('//div/text()').extract()但是您可以想象它会创建大量垃圾数据"\n\n\n\n\n"等。是否有更优雅的方式来编写我的选择器,这可以改善我的结果。< / p>

1 个答案:

答案 0 :(得分:0)

一种选择是关闭“此评论来自...... ”文字。像这样:

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()