使用简单的HTML DOM获取特定的纯文本

时间:2012-10-18 08:57:26

标签: php html regex dom

问题:

尝试从PHP中提供的HTML代码中提取特定文本。

HTML code:

<a href="/debatt/s-vill-ha-tioarig-skolplikt-och-farre-elever-i-klassen">
    <span class="number">2. </span>Skolplikt och färre elever i klassen
    <br />
    <span class="metadata">I går</span>
</a>

<a href="/sthlm/edholm-backar-om-skolornas-smorforbud">
    <span class="number">3. </span>Edholm backar om skolornas smörförbud
    <br />
    <span class="metadata">16 okt</span>
</a>

期望的输出:

2. Skolplikt och färre elever i klassen
3. Edholm backar om skolornas smörförbud

两个代码示例都具有相同的HTML结构。是否可以通过简单的HTML DOM来执行此操作,还是应该执行正则表达式?

2 个答案:

答案 0 :(得分:2)

将HTML添加到DOMElement对象中。有了它,您可以选择子项并将其HTML /文本提取到变量中。

文档:http://php.net/manual/en/class.domelement.php


https://stackoverflow.com/a/12950525/711129

相同的答案

答案 1 :(得分:1)

如果你经常这样做,你可以使用一个非常方便的类来解析html dom。

http://simplehtmldom.sourceforge.net/