Question

我在页面中选择了具有我想要的页面链接的元素。它们有点像<a href="blah">1</a>。我想在xpath中使用正则表达式，这样我就可以获得所有类似的链接，其文本为\d+。

我看到这里有一个答案：How to use regular expression in lxml xpath?但我无法理解它。

更具体地说，“请注意，您需要提供命名空间映射，以便它知道xpath表达式中的”re“前缀代表什么。”

以下是清理页面的代码：<div class="pagination"> <b>1</b> <a href="?page=post&s=list&tags=tag2+tag1&pid=25">2</a><a href="?page=post&s=list&tags=tag2+tag1&pid=50">3</a><a href="?page=post&s=list&tags=tag2+tag1&pid=75">4</a><a href="?page=post&s=list&tags=tag2+tag1&pid=100">5</a><a href="?page=post&s=list&tags=tag2+tag1&pid=125">6</a><a href="?page=post&s=list&tags=tag2+tag1&pid=150">7</a><a href="?page=post&s=list&tags=tag2+tag1&pid=175">8</a><a href="?page=post&s=list&tags=tag2+tag1&pid=200">9</a><a href="?page=post&s=list&tags=tag2+tag1&pid=225">10</a><a href="?page=post&s=list&tags=tag2+tag1&pid=250">11</a><a href="?page=post&s=list&tags=tag2+tag1&pid=25" alt="next">›</a><a href="?page=post&s=list&tags=tag2+tag1&pid=325" alt="last page">»</a><br><br><br><br><iframe hspace="0" vspace="0" border="0" marginheight="0" marginwidth="0" allowtransparency="true" src="http://notrelevant.com" frameborder="0" height="98" scrolling="no" width="736"></iframe></div>

到目前为止我的代码：

answer = browser.open(address)
tree = lxml.html.parse(answer)
numbers = tree.xpath("//div[contains(@class, 'pagination')]")[0]

Answer 1

此XPath表达式不需要RegExp：

//div[
   contains(
      concat(' ',@class,' '),
      ' pagination '
   )
]/a[
  floor()=.
]

Answer 2

XPath没有提供匹配正则表达式的方法。

您链接的帖子中使用的扩展程序应该允许以下工作：

//div[contains(@class, 'pagination')]/a[re:match(text(), '^\d+$')]

XPath找到只有数字的所有链接？

2 个答案: