应用错误收集

我目前使用YQL使用xpath提取维基百科的内容。

我目前使用的xpath表达式是\\p。此表达式选择剥离所有子节点的所有段落节点，如<a>，<sup>，<strong>等。

由于这个原因，我得到了像这样的维基百科足球页面的输出。 Link here

在此输出中，链接被剥离。

来自维基百科，免费的百科全书

。如需其他用途，请参阅

或者足球,,,,和。。许多不同游戏中的一些被称为   足球。从左上角到右下角：
     所有人都在不同程度上涉及一个带脚的球得分a。该   世界上最流行的这些运动，通常被称为   只是“足球”或“足球”。不合格，这个词适用于   无论哪种形式的足球在区域范围内最受欢迎   其中出现的单词包括,,,,和其他相关内容   游戏。足球的这些变化被称为足球“代码”。   .....................和更多

预期输出

来自维基百科，免费的百科全书

有关其他用途，请参阅足球（消除歧义）。

许多不同的游戏称为足球。从左上角到   右下角：足球或足球协会，澳大利亚规则   足球，国际规则足球，橄榄球联盟，橄榄球联盟，以及   美式足球。

足球体育都在不同程度上涉及踢一个球   脚射门得分。这些运动在全球最受欢迎   协会足球，通常被称为“足球”或   “足球”。不合格，足球这个词适用于任何形式的   足球是区域内最受欢迎的词汇   出现，包括美式足球，澳大利亚足球规则，   加拿大足球，盖尔足球，橄榄球联盟，橄榄球联盟1和   其他相关游戏。足球的这些变化被称为   足球“代码”。

（更大胆的单词是有链接的单词）

那么如何提取段落及其子节点？我是xpath的新手

用于选择具有子节点的父级的xpath表达式

1 个答案: