Question

问题：

尝试从PHP中提供的HTML代码中提取特定文本。

HTML code：

<a href="/debatt/s-vill-ha-tioarig-skolplikt-och-farre-elever-i-klassen">
    <span class="number">2. </span>Skolplikt och färre elever i klassen
    <br />
    <span class="metadata">I går</span>
</a>

<a href="/sthlm/edholm-backar-om-skolornas-smorforbud">
    <span class="number">3. </span>Edholm backar om skolornas smörförbud
    <br />
    <span class="metadata">16 okt</span>
</a>

期望的输出：

2. Skolplikt och färre elever i klassen
3. Edholm backar om skolornas smörförbud

两个代码示例都具有相同的HTML结构。是否可以通过简单的HTML DOM来执行此操作，还是应该执行正则表达式？

Answer 1

将HTML添加到DOMElement对象中。有了它，您可以选择子项并将其HTML /文本提取到变量中。

文档：http://php.net/manual/en/class.domelement.php

与https://stackoverflow.com/a/12950525/711129

相同的答案

Answer 2

如果你经常这样做，你可以使用一个非常方便的类来解析html dom。

http://simplehtmldom.sourceforge.net/

使用简单的HTML DOM获取特定的纯文本

2 个答案: