文本不整洁时如何使用Xpath获取文本

时间:2018-12-14 00:04:32

标签: html xpath

我正在尝试抓取此网页的扩展图部分:https://bigbangtheory.fandom.com/wiki/The_White_Asparagus_Triangulation

我尝试了这个Xpath:

//span[contains(@id,'Extended')]/..//following-sibling::P

但是我错过了这一段:

  

那天谢尔顿醒来了……

1 个答案:

答案 0 :(得分:0)

您必须包括所有p标签以及表达式匹配的text之后的H2个节点。像这样:

<xsl:apply-templates select="//span[contains(@id,'Extended')]/../following-sibling::p|//span[contains(@id,'Extended')]/../following-sibling::text()"/>