我对python和scrapy相对较新,并且在我正在努力解决的问题上需要一些帮助。 我正在尝试使用scrapy和XPath抓取亚马逊并提取特定产品的用户评论。 我想询问是否有比我现有的更优雅的解决方案。
假设我想从this address获取评论。
注释页面的结构对提取看起来不是很友好(使用firebug,你可以看到没有特定的标签只围绕注释区域)。
目前我正在使用以下选择器:hxs.select('//div/text()').extract()
但是您可以想象它会创建大量垃圾数据"\n\n\n\n\n"
等。是否有更优雅的方式来编写我的选择器,这可以改善我的结果。< / p>
答案 0 :(得分:0)
一种选择是关闭“此评论来自...... ”文字。像这样:
//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()