用于选择具有子节点的父级的xpath表达式

时间:2012-01-25 18:26:44

标签: html xml dom xpath yql

我目前使用YQL使用xpath提取维基百科的内容。

我目前使用的xpath表达式是\\p。此表达式选择剥离所有子节点的所有段落节点,如<a><sup><strong>等。

由于这个原因,我得到了像这样的维基百科足球页面的输出。 Link here

在此输出中,链接被剥离。

  

来自维基百科,免费的百科全书

     

。如需其他用途,请参阅

     

或者足球,,,,和。。许多不同游戏中的一些被称为   足球。从左上角到右下角:

     所有人都在不同程度上涉及一个带脚的球得分a。该   世界上最流行的这些运动,通常被称为   只是“足​​球”或“足球”。不合格,这个词适用于   无论哪种形式的足球在区域范围内最受欢迎   其中出现的单词包括,,,,和其他相关内容   游戏。足球的这些变化被称为足球“代码”。   .....................和更多

预期输出

  

来自维基百科,免费的百科全书

     

有关其他用途,请参阅足球(消除歧义)

     

许多不同的游戏称为足球。从左上角到   右下角:足球或足球协会澳大利亚规则   足球国际规则足球橄榄球联盟橄榄球联盟,以及   美式足球

     

足球体育都在不同程度上涉及一个球   脚射门得分。这些运动在全球最受欢迎   协会足球,通常被称为“足球”或   “足球”。不合格,足球这个词适用于任何形式的   足球是区域内最受欢迎的词汇   出现,包括美式足球,澳大利亚足球规则,   加拿大足球盖尔足球橄榄球联盟,橄榄球联盟1和   其他相关游戏。足球的这些变化被称为   足球“代码”。

(更大胆的单词是有链接的单词)

那么如何提取段落及其子节点?我是xpath的新手

1 个答案:

答案 0 :(得分:0)

正确的答案是//p/descendant-or-self::*,以便拥有父节点和子节点。