我正在尝试使用scrapy从某些网站保存信息,我发现了一个问题而且我不知道如何修复它。
我试图获取p标签内的所有文字,但我的问题是,在某些情况下,这些标签内部不仅有文字,有时会有一些标签,并在到达标签时停止收集文字。
这是我的Xpath表达式,在没有标签的情况下它正常工作......
description=descriptionpath.xpath("span[@itemprop='description']/p/text()").extract()
任何帮助将不胜感激!
提前致谢!
答案 0 :(得分:0)
发布Pawel Miech's comment作为答案,因为看起来他的评论到目前为止帮助了我们很多人并且包含了正确的答案:
在xpath末尾添加//text()
以指定应递归提取文本。
所以你的xpath会显示如下:
span[@itemprop='description']/p//text()