XPath表达式?

时间:2009-09-26 16:37:40

标签: xpath

我想从此网页中提取“日期:2009-09-25,1:54 PM EDT”

http://auburn.craigslist.org/sha/1392067187.html

但我不明白如何为此编写Xpath表达式。

任何人都可以帮助我。

我也从这个页面获得其他字段。

2 个答案:

答案 0 :(得分:2)

为什么不运行类似下面的正则表达式?

'日期:\ S +(。?[0-9] {4} - [0-9] {2} - [0-9] {2} + \≤)'

它接缝是最简单的方法。如果你不想使用纯文本,你可以使用XPath 2.0,它支持regexps(fn:matches)。

答案 1 :(得分:1)

您是通过TIDY或其他进程运行HTML以将其转换为XHTML吗?或者你如何能够针对该HTML执行XPATH?

如果文档格式正确,那么您可以使用以下XPATH:

/html/body/hr[1]/following-sibling::text()[1]

它找到文档中的第一个HR元素,然后选择它后面的第一个text()节点(包含字符串“Date:2009-09-25,1:54 PM EDT”