使用格式化文本解析HTML

时间:2016-03-10 17:01:13

标签: php html parsing domdocument

我正在使用DOMDocument解析HTML网页。

这是我的代码:

$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');

在$ article中我将所有文本都包含在"条目容器修复中#34;格。

但是网页中的这个文字有一个格式化文本。 简单说明:

<div> 
   <p> Text <strong> Strong text </strong> </p>
</div>

用我的代码,我丢失了所有大胆的意大利字符,所有段落都是ecc ... 有一种获取所有格式化文本的方法吗?

1 个答案:

答案 0 :(得分:1)

为什么不使用saveHTML函数来提取HTML(这里是链接:http://php.net/manual/fr/domdocument.savehtml.php)。它看起来像这样:

$sFormated = $doc->saveHTML($article->item(0));