我从其他地方搜索并处理XML文件,并且需要 用一些XSLT转换它们。没问题。使用PHP5和DOM 图书馆,一切都很快。工作得很好,到现在为止。今天,时髦 字符在XML文件中 - 来自Word的“智能”引用,它看起来 喜欢。无论如何,DOMDocument->加载抱怨他们,说 它们不是UTF-8,而是指定编码。
请注意,这些XML文件中未指定编码。如果我 将'encoding =“iso-8859-1”'添加到标题中,它可以正常工作。摩擦是 我无法控制这些XML文件。
将文件读入字符串,修改其标题并将其写回 出去到另一个地方似乎是我唯一的选择,但我更愿意这样做 它根本不必使用XML文件的临时副本。是 有没有办法简单地告诉解析器解析它们就像它们一样 ISO-8859-1
答案 0 :(得分:9)
这对你有用吗?
$doc = new DOMDocument('1.0', 'iso-8859-1');
$doc->load($xmlPath);
编辑:由于看起来这不起作用,您可以执行的操作类似于现有方法,但没有临时文件。只需使用标准IO操作(file_get_contents()
或其他内容)从源中读取XML文件,然后对所需的编码执行任何更改(iconv()
或utf8_decode()
),然后使用{{1 }}
loadXML()
答案 1 :(得分:5)
我还没有找到设置默认编码的方法(但是)可能在这种情况下恢复模式是可行的。
当libxml遇到编码错误并且没有显式设置编码时,它会从unicode / utf8切换到latin1并继续解析文档。但是在解析器上下文中,属性wellFormed
设置为0 / false。如果wellFormed
为真,则PHP的DOM扩展认为文档有效或 DOMDocument对象的属性recover
为真。
<?php
// german Umlaut ä in latin1 = 0xE4
$xml = '<foo>'.chr(0xE4).'</foo>';
$doc = new DOMDocument;
$b = $doc->loadxml($xml);
echo 'with doc->recover=false(default) : ', ($b) ? 'success':'failed', "\n";
$doc = new DOMDocument;
$doc->recover = true;
$b = $doc->loadxml($xml);
echo 'with doc->recover=true : ', ($b) ? 'success':'failed', "\n";
打印
Warning: DOMDocument::loadXML(): Input is not proper UTF-8, indicate encoding !
Bytes: 0xE4 0x3C 0x2F 0x66 in Entity, line: 1 in test.php on line 6
with doc->recover=false(default) : failed
Warning: DOMDocument::loadXML(): Input is not proper UTF-8, indicate encoding !
Bytes: 0xE4 0x3C 0x2F 0x66 in Entity, line: 1 in test.php on line 11
with doc->recover=true : success
您仍然会收到警告消息(可以使用@ $ doc-&gt; load()来抑制),它也会显示在internal libxml errors中(解析器从utf8切换到latin1时只会出现一次) 。此特定错误的错误代码为9(XML_ERR_INVALID_CHAR)。
<?php
$xml = sprintf('<foo>
<ae>%s</ae>
<oe>%s</oe>
&
</foo>', chr(0xE4),chr(0xF6));
libxml_use_internal_errors(true);
$doc = new DOMDocument;
$doc->recover = true;
libxml_clear_errors();
$b = $doc->loadxml($xml);
$invalidCharFound = false;
foreach(libxml_get_errors() as $error) {
if ( 9==$error->code && !$invalidCharFound ) {
$invalidCharFound = true;
echo "found invalid char, possibly harmless\n";
}
else {
echo "hm, that's probably more severe: ", $error->message, "\n";
}
}
答案 2 :(得分:2)
指定编码的唯一方法是在文件开头的XML声明中:
<?xml version="1.0" encoding="ISO-8859-1"?>