也许我在谷歌上搜索错误的关键字,但是没有办法添加自定义标签,以便DOMDocument可以找到自定义标签。当我的html文件出现很多错误时,getElementsByTagName当然不会返回任何内容。
$dom = new DOMDocument();
$html = $dom->loadHTMLFile('my html file');
$dom->getElementsByTagName('un_welcome_text');
不会失败。 我意识到这不是最佳实践,但我必须解析的代码是无法改变的遗留内容。
html看起来像是,我必须得到
之间的所有内容 <body>
<u_top></u_top>
<u_welcome_text>
A BUNCH OF HTML
</u_welcome_text>
</body>
答案 0 :(得分:-1)
您可以将文档视为XML而不是HTML,然后解析它(http://www.php.net/manual/es/function.simplexml-load-file.php)。
此外,如果您正在寻找更具体的东西,您可以尝试使用一些正则表达式来获得您想要的东西。
你可以这样做:
$xml = simplexml_load_file('my html file');
echo $xml->body->u_welcome_text;