Question

我注意到，在此网址上：http://www.bubbleroom.se/sv/kläder/kvinna/controlbody/bodys/body-nero标记中的空字符\u0的标识为prodText。

在尝试提取此字符后的任何其他内容时，整个文档似乎以此null char结尾。

“不”的代码。它有效，但在$html字符串

中有空字符时则不行

$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadHTML($html);
libxml_clear_errors();

return new DOMXPath($dom);

Answer 1

我在使用以下代码创建xpath实例之前简单地过滤html解决了这个问题：

$html  = str_replace("\0", "", $html);