使用XPATH从html标记内的文本中提取日期

时间:2019-05-22 14:37:04

标签: html xml xpath extract

使用xpath子字符串在html标记中提取日期

我尝试在xpath中使用子字符串

<span id="latestReplyLine"><a href="#comment-965609" class="lastScroll js-latest-reply">Latest reply</a> on May 22, 2019 by John Stoltzfus</span>

我正在使用下面的xpath查询来提取文本

/span[@id="latestReplyLine"]/text()[substring-after(substring-before(.,' by '), ' on ')]

预期结果-

"May 22, 2019"

但是我明白了,

"on May 22, 2019 by John Stoltzfus"

有什么主意吗?

1 个答案:

答案 0 :(得分:4)

您缺少正确的字符串一个空格(on而不是on)。
改进的XPath表达式如下:

normalize-space(substring-after(substring-before(string(/span[@id='latestReplyLine']),'by'), 'on'))

这将为您提供正确的结果。