我注意到,在此网址上:http://www.bubbleroom.se/sv/kläder/kvinna/controlbody/bodys/body-nero标记中的空字符\u0
的标识为prodText
。
在尝试提取此字符后的任何其他内容时,整个文档似乎以此null char结尾。
“不”的代码。它有效,但在$html
字符串
$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadHTML($html);
libxml_clear_errors();
return new DOMXPath($dom);
答案 0 :(得分:4)
我在使用以下代码创建xpath实例之前简单地过滤html解决了这个问题:
$html = str_replace("\0", "", $html);