刮擦动态且不一致的dom站点

时间:2014-05-22 15:47:45

标签: html dom xpath

主题2是趋势线程,因此它返回了额外的标记范围,这破坏了我的查询。如何解决这类问题?如果我做到//结束,那么其他三个都出局了。

    <li>
    topic 1
    </li>

    <li>
    <span style="color:red">topic 2</span>
    </li>

    <li>
    topic 3
    </li>

"poll"
    <li>
    topic 4
    </li>

1 个答案:

答案 0 :(得分:0)

您可以使用descendant-or-self

//li/descendant-or-self::text()

演示(使用xmllint):

$ xmllint index.html --xpath '//li/descendant-or-self::text()'
topic 1
topic 2
topic 3
topic 4

index.html包含:

<ul>
    <li>
    topic 1
    </li>

    <li>
    <span style="color:red">topic 2</span>
    </li>

    <li>
    topic 3
    </li>

    <li>
    topic 4
    </li>
</ul>
相关问题