Question

我想从此网页中提取“日期：2009-09-25,1：54 PM EDT”

http://auburn.craigslist.org/sha/1392067187.html

但我不明白如何为此编写Xpath表达式。

任何人都可以帮助我。

我也从这个页面获得其他字段。

Answer 1

为什么不运行类似下面的正则表达式？

'日期：\ S +（。？[0-9] {4} - [0-9] {2} - [0-9] {2} + \≤）'

它接缝是最简单的方法。如果你不想使用纯文本，你可以使用XPath 2.0，它支持regexps（fn：matches）。

Answer 2

您是通过TIDY或其他进程运行HTML以将其转换为XHTML吗？或者你如何能够针对该HTML执行XPATH？

如果文档格式正确，那么您可以使用以下XPATH：

/html/body/hr[1]/following-sibling::text()[1]

它找到文档中的第一个HR元素，然后选择它后面的第一个text（）节点（包含字符串“Date：2009-09-25,1：54 PM EDT”