Question

我对python和scrapy相对较新，并且在我正在努力解决的问题上需要一些帮助。我正在尝试使用scrapy和XPath抓取亚马逊并提取特定产品的用户评论。我想询问是否有比我现有的更优雅的解决方案。

假设我想从this address获取评论。注释页面的结构对提取看起来不是很友好（使用firebug，你可以看到没有特定的标签只围绕注释区域）。目前我正在使用以下选择器：hxs.select('//div/text()').extract()但是您可以想象它会创建大量垃圾数据"\n\n\n\n\n"等。是否有更优雅的方式来编写我的选择器，这可以改善我的结果。< / p>

Answer 1

一种选择是关闭“此评论来自...... ”文字。像这样：

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

Scrapy和XPath从Amazon提取评论

1 个答案: