我目前使用YQL使用xpath提取维基百科的内容。
我目前使用的xpath表达式是\\p
。此表达式选择剥离所有子节点的所有段落节点,如<a>
,<sup>
,<strong>
等。
由于这个原因,我得到了像这样的维基百科足球页面的输出。 Link here
在此输出中,链接被剥离。
来自维基百科,免费的百科全书
。如需其他用途,请参阅
或者足球,,,,和。。许多不同游戏中的一些被称为 足球。从左上角到右下角:
所有人都在不同程度上涉及一个带脚的球得分a。该 世界上最流行的这些运动,通常被称为 只是“足球”或“足球”。不合格,这个词适用于 无论哪种形式的足球在区域范围内最受欢迎 其中出现的单词包括,,,,和其他相关内容 游戏。足球的这些变化被称为足球“代码”。 .....................和更多
预期输出
来自维基百科,免费的百科全书
有关其他用途,请参阅足球(消除歧义)。
许多不同的游戏称为足球。从左上角到 右下角:足球或足球协会,澳大利亚规则 足球,国际规则足球,橄榄球联盟,橄榄球联盟,以及 美式足球。
足球体育都在不同程度上涉及踢一个球 脚射门得分。这些运动在全球最受欢迎 协会足球,通常被称为“足球”或 “足球”。不合格,足球这个词适用于任何形式的 足球是区域内最受欢迎的词汇 出现,包括美式足球,澳大利亚足球规则, 加拿大足球,盖尔足球,橄榄球联盟,橄榄球联盟1和 其他相关游戏。足球的这些变化被称为 足球“代码”。
(更大胆的单词是有链接的单词)
那么如何提取段落及其子节点?我是xpath的新手
答案 0 :(得分:0)
正确的答案是//p/descendant-or-self::*
,以便拥有父节点和子节点。