需要正则表达式来解析HTML标记

时间:2010-08-26 17:12:05

标签: php html regex

正则表达式不是我的强项,可以在匹配和替换以下内容方面提供帮助:

在HTML文件中,我有许多HTML实例,如下所示:

<font class=font8>text text text</font>

字体标记在单个单词或多个单词中可以包含空格和数字。

我需要找到所有这些实例并替换为:

<span class="bold">(text that was there)</span>

由于 詹姆斯

PS:HTML是从单词生成的,这就是为什么它如此糟糕:o)

1 个答案:

答案 0 :(得分:4)

使用getElementsByTagName('font')DOMDocument::loadHTML方法,遍历基于->length的节点列表,然后createElement('span')setAttribute,以获取类名称值的粗体,做一个replaceChild来替换它。

DOM的参考:http://php.net/manual/en/book.dom.php