如何编写XPath来捕获未标记的文本

时间:2009-09-01 13:47:55

标签: text xpath screen-scraping

我正在尝试从网站上删除客户评论,并遇到了一个有趣的设置。

<div class="Review">
  <img class="stars" etc>
  <b>ReviewerName</b>
  - yyyy-mm-dd
  <br/>
  <p>Review</p>
  <a>was this helpful links</a>
  <hr/>
  <br/>
  <!-- Repeat above for additional reviews. -->
</div>

对于我的生活,我无法想出一个捕获日期(- yyyy-mm-dd)的XPath,因为它周围没有HTML格式。有人有解决方案吗?

乔恩

1 个答案:

答案 0 :(得分:2)

假设这样的结构:

<div class="Review">
    <img class="stars"/><b>ReviewerName</b> - yyyy-mm-dd<br/>
</div>

以下xpath选择日期yyyy-mm-dd

substring-after(/div/b/following-sibling::text()[1],' - ')