XPATH定位<p>标记内嵌套的文本<a>标记

时间:2020-09-18 16:06:47

标签: python xpath web-scraping scrapy

我正在尝试在

标记内定位文本。有些

标记也具有嵌套标记,而我的XPATH并不针对这些标记的文本值。

链接:https://help.lyft.com/hc/en-us/articles/115012925707-I-was-charged-incorrectly

这是我正在使用的XPATH://article//p/text()

当然,我可以do //article//p//text()并定位文本,但这也得到了我不想提取的其他链接。我只想在

标记内获取所有文本,如果有任何嵌套的标记,也要取该值。

如何获得这样的结果?

enter image description here

谢谢大家。

1 个答案:

答案 0 :(得分:0)

由于大多数粉色链接均以 Learn 开头,所以我可能会这样处理:

a = response.xpath('//article//p//a//text()').extract()
if "Learn" not in a and "Back to top" not in a:
    print(response.xpath('//article//p/text()').extract())