我正在尝试在
标记内定位文本。有些
标记也具有嵌套标记,而我的XPATH并不针对这些标记的文本值。
链接:https://help.lyft.com/hc/en-us/articles/115012925707-I-was-charged-incorrectly
这是我正在使用的XPATH://article//p/text()
当然,我可以do //article//p//text()
并定位文本,但这也得到了我不想提取的其他链接。我只想在
标记内获取所有文本,如果有任何嵌套的标记,也要取该值。
如何获得这样的结果?
谢谢大家。
答案 0 :(得分:0)
由于大多数粉色链接均以 Learn 开头,所以我可能会这样处理:
a = response.xpath('//article//p//a//text()').extract()
if "Learn" not in a and "Back to top" not in a:
print(response.xpath('//article//p/text()').extract())