手动解析无效的XML

时间:2017-02-21 07:26:13

标签: php xml parsing

我有一个XML无效,有文件本身的诸多问题,我需要从文件中每天必做的reimports。结构如下所示:

<products>
    <product no="AP1222-00" name="Colours kravata" price="456" currency="Kč">
        <description name="POPIS PRODUKTU">Kravata Premier Line v moderních barvách. Materiál polyester. Baleno v sáčku s černým poutkem.</description>
    </product>
    <product no="AP1222-22" name="Colours kravata" price="330" currency="Kč">
        <description name="POPIS PRODUKTU">Blabla.</description>
    </product>
</products>

有没有简单的方法得到的产品阵列,这样我就可以修复在t时的问题他导入前的文件吗? SimpleXML等不起作用,因为文件无效。

编辑: 这是XML的一个完整产品供参考,请注意产品名称中的双引号:

<products>
    <product no="AP1222-00" name="" Colours" kravata" price="456" currency="Kč">
        <folders>
            <folder category="<b>COOL 2017</b>" subcategory="TEXTILE & FASHION"/>
            <folder category="TEXTILE & FASHION" subcategory="Kravaty a šály"/>
        </folders>
        <description name="POPIS PRODUKTU">Kravata Premier Line v moderních barvách. Materiál polyester. Baleno v sáčku s
            černým poutkem.
        </description>
        <properties>
            <property name="KS / KARTON" value="100"/>
            <property name="HMOTNOST KARTONU" value="6"/>
            <property name="NETTO HMOTNOST / KARTON" value="5"/>
            <property name="DIM1" value="15"/>
            <property name="DIM2" value="80"/>
            <property name="DIM3" value="35"/>
            <property name="TECHNOLIGIE POTISKU" value="T1 (8C, 50×80 MM)"/>
            <property name="TARIF" value="6215200090"/>
            <property name="Min. mn. (ks)" value=""/>
            <property name="M3/CARTON" value="0.042"/>
            <property name="COOL 2017 KAPITOLA" value="TEXTILE AND FASHION"/>
            <property name="COOL 2017 STRANY" value="525"/>
            <property name="main category" value="fashion"/>
        </properties>
        <images>
            <image src="http://www.andapresent.com/kepek/cms/original/83653.jpg"/>
        </images>
        <stocks>
            <stock name="navi_central" value="2"/>
            <stock name="navi_arrive" value="" date=""/>
            <stock name="eu_central" value="" date=""/>
            <stock name="eu_arrive_1" value="" date=""/>
            <stock name="eu_arive_2" value="" date=""/>
        </stocks>
    </product>
</products>

1 个答案:

答案 0 :(得分:3)

DOMDocument::loadHTML方法比XML解析器更宽松,并且能够自动修复许多错误。问题是你无法控制libxml如何解决这些错误。

这就是为什么我建议使用DOMDocument::loadXML (使用XML解析器)的其他方法,但这次我将尝试使用自定义规则更正错误(不是'通用修复,但适应特定情况)

libxml_use_internal_errors()切换为true时,所有xml错误都存储在libXMLErr个实例的数组中。它们中的每一个都包含错误代码,错误行和错误列。 (请注意,第一行和第一列是1)

$xml = file_get_contents('file.xml');

$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadXML($xml);
$errors = libxml_get_errors();

if ($errors) {
    // LIBXML constant name, LIBXML error code // LIBXML error message
    define('XML_ERR_LT_IN_ATTRIBUTE', 38); // Unescaped '<' not allowed in attributes values
    define('XML_ERR_ATTRIBUTE_WITHOUT_VALUE', 41); // Specification mandate value for attribute
    define('XML_ERR_NAME_REQUIRED', 68); // xmlParseEntityRef: no name

    $rules = [
        XML_ERR_LT_IN_ATTRIBUTE => [
            'pattern' => '~(?:(?!\A)|.{%d}")[^<"]*\K<~A',
            'replacement' => [ 'string' => '&lt;', 'size' => 3 ]
        ],
        XML_ERR_ATTRIBUTE_WITHOUT_VALUE => [
            'pattern' => '~^.{%d}\h+\w+\h*=\h*"[^"]*\K"([^"]*)"~',
            'replacement' => [ 'string' => '&quot;$1&quot;', 'size' => 10 ]
        ],
        XML_ERR_NAME_REQUIRED => [
            'pattern' => '~^.{%d}[^&]*\K&~',
            'replacement' => [ 'string' => '&amp;', 'size' => 4 ]
        ]
    ];

    $previousLineNo = 0;
    $lines = explode("\n", $xml);

    foreach ($errors as $error) {

        if (!isset($rules[$error->code])) continue;

        $currentLineNo = $error->line;

        if ( $currentLineNo != $previousLineNo )
            $offset = -1;

        $currentLine = &$lines[$currentLineNo - 1];
        $pattern = sprintf($rules[$error->code]['pattern'], $error->column + $offset);
        $currentLine = preg_replace($pattern,
                                    $rules[$error->code]['replacement']['string'],
                                    $currentLine, -1, $count);
        $offset += $rules[$error->code]['replacement']['size'] * $count;
        $previousLineNo = $currentLineNo;
    }

    $xml = implode("\n", $lines);

    libxml_clear_errors();
    $dom->loadXML($xml);
    $errors = libxml_get_errors();
}

var_dump($errors);

$s = simplexml_import_dom($dom);

echo $s->product[0]["name"];

规则数组中的size是替换字符串的大小与替换字符串的大小之间的差异。这样,当同一行上有多个错误时,下一个错误的位置将使用$offset更新。

libxml错误常量在PHP中不可用,这就是为什么手动定义它们的原因(只是为了使代码更具可读性)。你可以找到它们here