整洁 - 如何从HTML中删除重复的ID

时间:2011-05-16 20:13:10

标签: php html parsing tidy

我有一个需要由DOMDocument::loadHtml($html)解析的HTML,但它给了我一个错误:

DOMDocument::loadHTML(): ID 'my id' already defined in Entity

我无法控制$html,但我可以在其上使用整洁的lib(或其他东西,想法?)并制作可解析的HTML。 但是我没有在整洁的配置中找到一个选项来删除整齐配置中的重复ID。我的代码是这样的:

$tidy = new tidy();
$tidy->parseString($this->getPageContents());
$html = new DOMDocument();
$html->loadHTML($tidy); // error here

THX

1 个答案:

答案 0 :(得分:0)

$html->loadXML($tidy);

然后在解析为html dom

之前使用xml dom重写id