XPath:访问非属性的东西

时间:2012-12-07 15:06:11

标签: python xml xpath

我尝试使用lxml和xpath-command从以下代码段访问时间(07.12.2012 00:36 Uhr)。不幸的是,所希望的信息不是属性。我可以使用哪个xpath来访问它?

我的片段:

{'class': 'artikeldiskussion-titel'}
<div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span>

    <span id="an_id" style="position: absolute; visibility: hidden; z-index: 999;"    class="hint_grau">

    </span> <span class="anz-postings-user" title="759 Kommentare">(759)</span> &#183;           07.12.2012 00:36 Uhr
</div>

2 个答案:

答案 0 :(得分:1)

这是凌乱的HTML。

如果没有看到更多样本,我建议采用以下两种方法之一:

  1. 抓住div中的最后一个文本节点:/descendant::div[@class="artikeldiskussion-titel"]/child::text()[position()=last()]
  2. 在一些标记节点之后抓取文本节点:/descendant::span[@class="anz-postings-user"]/following-sibling::text()[1]

答案 1 :(得分:0)

使用text() xpath函数:

txt = tree.xpath('//path/to/span/text()')