我想从维基百科中搜集一些(不多)信息。 说我有一个大学列表和他们的维基百科页面。我可以使用xpath表达式查找该大学的网站(域)吗?
所以,例如,如果我得到页面
curl http://en.wikipedia.org/wiki/Vienna_University_of_Technology
此xpath表达式应该找到域:
http://www.tuwien.ac.at
理想情况下,这应该适用于Linux xgrep
命令行工具或同等工具。
答案 0 :(得分:1)
将h
前缀绑定到http://www.w3.org/1999/xhtml
名称空间URI:
/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href
此外,看起来Wiki页面是格式良好的XML(尽管像text / html一样提供服务)。因此,如果您的XML文档包含以下页面的URL:
<root>
<url>http://en.wikipedia.org/wiki/Vienna_University_of_Technology</url>
</root>
您可以使用:
document(/root/url)/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href