我想从此网页中提取“日期:2009-09-25,1:54 PM EDT”
http://auburn.craigslist.org/sha/1392067187.html
但我不明白如何为此编写Xpath表达式。
任何人都可以帮助我。
我也从这个页面获得其他字段。
答案 0 :(得分:2)
为什么不运行类似下面的正则表达式?
'日期:\ S +(。?[0-9] {4} - [0-9] {2} - [0-9] {2} + \≤)'
它接缝是最简单的方法。如果你不想使用纯文本,你可以使用XPath 2.0,它支持regexps(fn:matches)。
答案 1 :(得分:1)
您是通过TIDY或其他进程运行HTML以将其转换为XHTML吗?或者你如何能够针对该HTML执行XPATH?
如果文档格式正确,那么您可以使用以下XPATH:
/html/body/hr[1]/following-sibling::text()[1]
它找到文档中的第一个HR元素,然后选择它后面的第一个text()节点(包含字符串“Date:2009-09-25,1:54 PM EDT”