您如何从
获取页面计数的最新下载链接http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/
使用XPath?
http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/pagecounts-20111115-140000.gz
我去了(Mechanize):
agent.get(url).search("//*[@href[contains(.,'pagecounts')]]")#.last
但是我仍然遇到麻烦来获取XPath表达式中的最后一个元素。
答案 0 :(得分:1)
要从XPath中的集合中选择最后一个节点,请使用
[position()=last()]
甚至只是
[last()]
当你想从整个文档集中检索最后一个锚点时,使用它(在PHP中测试,但它应该在Mechanize中执行)
(//a[starts-with(@href, 'pagecounts')])[last()]