Question

我想从维基百科中搜集一些（不多）信息。说我有一个大学列表和他们的维基百科页面。我可以使用xpath表达式查找该大学的网站（域）吗？

所以，例如，如果我得到页面

curl http://en.wikipedia.org/wiki/Vienna_University_of_Technology

此xpath表达式应该找到域：

http://www.tuwien.ac.at

理想情况下，这应该适用于Linux xgrep命令行工具或同等工具。

Answer 1

将h前缀绑定到http://www.w3.org/1999/xhtml名称空间URI：

/h:html/h:body/h:div[@id='content']
               /h:div[@id='bodyContent']
                /h:table[@class='infobox vcard']
                 /h:tr[h:th='Website']
                  /h:td/h:a/@href

此外，看起来Wiki页面是格式良好的XML（尽管像text / html一样提供服务）。因此，如果您的XML文档包含以下页面的URL：

<root>
   <url>http://en.wikipedia.org/wiki/Vienna_University_of_Technology</url>
</root>

您可以使用：

document(/root/url)/h:html/h:body/h:div[@id='content']
                                  /h:div[@id='bodyContent']
                                   /h:table[@class='infobox vcard']
                                    /h:tr[h:th='Website']
                                     /h:td/h:a/@href

如何使用XPath或xgrep在维基百科中查找信息？

1 个答案: