我一直在开发Java程序,通过使用各种html解析器来解析网页的html源代码,如Jericho,NekoHtml等......
现在我想用PHP语言开发解析器。所以在开始之前,我想知道有没有可用的HTML解析器,我可以用PHP来解析HTML代码
答案 0 :(得分:2)
内置类DOM parser做得非常好。还有很多其他xml parsers。
答案 1 :(得分:2)
结帐DOMDocument。
示例#1创建文档
<?php
$doc = new DOMDocument();
$doc->loadHTML("<html><body>Test<br></body></html>");
echo $doc->saveHTML();
答案 2 :(得分:1)
DOM非常适合这一点。它也可以处理无效标记,但是,如果标记不完整,它会抛出未记录的错误和异常,所以我建议你先用HTMLPurifier或其他库过滤HTML,然后再加载DOM。