我有一个XML无效,有文件本身的诸多问题,我需要从文件中每天必做的reimports。结构如下所示:
<products>
<product no="AP1222-00" name="Colours kravata" price="456" currency="Kč">
<description name="POPIS PRODUKTU">Kravata Premier Line v moderních barvách. Materiál polyester. Baleno v sáčku s černým poutkem.</description>
</product>
<product no="AP1222-22" name="Colours kravata" price="330" currency="Kč">
<description name="POPIS PRODUKTU">Blabla.</description>
</product>
</products>
有没有简单的方法得到的产品阵列,这样我就可以修复在t时的问题他导入前的文件吗? SimpleXML
等不起作用,因为文件无效。
编辑: 这是XML的一个完整产品供参考,请注意产品名称中的双引号:
<products>
<product no="AP1222-00" name="" Colours" kravata" price="456" currency="Kč">
<folders>
<folder category="<b>COOL 2017</b>" subcategory="TEXTILE & FASHION"/>
<folder category="TEXTILE & FASHION" subcategory="Kravaty a šály"/>
</folders>
<description name="POPIS PRODUKTU">Kravata Premier Line v moderních barvách. Materiál polyester. Baleno v sáčku s
černým poutkem.
</description>
<properties>
<property name="KS / KARTON" value="100"/>
<property name="HMOTNOST KARTONU" value="6"/>
<property name="NETTO HMOTNOST / KARTON" value="5"/>
<property name="DIM1" value="15"/>
<property name="DIM2" value="80"/>
<property name="DIM3" value="35"/>
<property name="TECHNOLIGIE POTISKU" value="T1 (8C, 50×80 MM)"/>
<property name="TARIF" value="6215200090"/>
<property name="Min. mn. (ks)" value=""/>
<property name="M3/CARTON" value="0.042"/>
<property name="COOL 2017 KAPITOLA" value="TEXTILE AND FASHION"/>
<property name="COOL 2017 STRANY" value="525"/>
<property name="main category" value="fashion"/>
</properties>
<images>
<image src="http://www.andapresent.com/kepek/cms/original/83653.jpg"/>
</images>
<stocks>
<stock name="navi_central" value="2"/>
<stock name="navi_arrive" value="" date=""/>
<stock name="eu_central" value="" date=""/>
<stock name="eu_arrive_1" value="" date=""/>
<stock name="eu_arive_2" value="" date=""/>
</stocks>
</product>
</products>
答案 0 :(得分:3)
DOMDocument::loadHTML
方法比XML解析器更宽松,并且能够自动修复许多错误。问题是你无法控制libxml如何解决这些错误。
这就是为什么我建议使用DOMDocument::loadXML
(使用XML解析器)的其他方法,但这次我将尝试使用自定义规则更正错误(不是'通用修复,但适应特定情况)
将libxml_use_internal_errors()
切换为true
时,所有xml错误都存储在libXMLErr
个实例的数组中。它们中的每一个都包含错误代码,错误行和错误列。 (请注意,第一行和第一列是1)。
$xml = file_get_contents('file.xml');
$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadXML($xml);
$errors = libxml_get_errors();
if ($errors) {
// LIBXML constant name, LIBXML error code // LIBXML error message
define('XML_ERR_LT_IN_ATTRIBUTE', 38); // Unescaped '<' not allowed in attributes values
define('XML_ERR_ATTRIBUTE_WITHOUT_VALUE', 41); // Specification mandate value for attribute
define('XML_ERR_NAME_REQUIRED', 68); // xmlParseEntityRef: no name
$rules = [
XML_ERR_LT_IN_ATTRIBUTE => [
'pattern' => '~(?:(?!\A)|.{%d}")[^<"]*\K<~A',
'replacement' => [ 'string' => '<', 'size' => 3 ]
],
XML_ERR_ATTRIBUTE_WITHOUT_VALUE => [
'pattern' => '~^.{%d}\h+\w+\h*=\h*"[^"]*\K"([^"]*)"~',
'replacement' => [ 'string' => '"$1"', 'size' => 10 ]
],
XML_ERR_NAME_REQUIRED => [
'pattern' => '~^.{%d}[^&]*\K&~',
'replacement' => [ 'string' => '&', 'size' => 4 ]
]
];
$previousLineNo = 0;
$lines = explode("\n", $xml);
foreach ($errors as $error) {
if (!isset($rules[$error->code])) continue;
$currentLineNo = $error->line;
if ( $currentLineNo != $previousLineNo )
$offset = -1;
$currentLine = &$lines[$currentLineNo - 1];
$pattern = sprintf($rules[$error->code]['pattern'], $error->column + $offset);
$currentLine = preg_replace($pattern,
$rules[$error->code]['replacement']['string'],
$currentLine, -1, $count);
$offset += $rules[$error->code]['replacement']['size'] * $count;
$previousLineNo = $currentLineNo;
}
$xml = implode("\n", $lines);
libxml_clear_errors();
$dom->loadXML($xml);
$errors = libxml_get_errors();
}
var_dump($errors);
$s = simplexml_import_dom($dom);
echo $s->product[0]["name"];
规则数组中的size
是替换字符串的大小与替换字符串的大小之间的差异。这样,当同一行上有多个错误时,下一个错误的位置将使用$offset
更新。
libxml错误常量在PHP中不可用,这就是为什么手动定义它们的原因(只是为了使代码更具可读性)。你可以找到它们here。