从属性的复杂XML中获取所有叶子

时间:2014-03-10 20:02:33

标签: php xml xslt xpath domdocument

我有那种XML文件

myxml.xml

<?xml version="1.0" encoding="utf-8"?>
<products nb="2" type="new">
    <product ean="12345677654321">
        <sku>Product1</sku>
        <parameters>
           <short_desc> Short description of the product1 </short_desc>
           <price currency="USD">19.65</price>
        </parameters>
    </product>
    <product ean="12345644654321">
        <sku>Product2</sku>
        <parameters>
           <long_desc> Long description of the product2 </long_desc>
           <price currency="USD">19.65</price>
           <vat>20</vat>
        </parameters>
    </product>
</products>

我会像这样的数组

/products/@nb
/products/@type
/products/product/@ean
/products/product/sku
/products/product/parameters/short_desc
/products/product/parameters/long_desc
/products/product/parameters/price
/products/product/parameters/price/@currency
/products/product/parameters/vat

我的代码

几乎就是这个结果

getpath.xsl

<xsl:stylesheet version="1.0"  xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:output omit-xml-declaration="yes" indent="yes"/>
    <xsl:strip-space elements="*"/>

    <xsl:variable name="vApos">'</xsl:variable>

    <xsl:template match="*[@* or not(*)] ">
      <xsl:if test="not(*)">
         <xsl:apply-templates select="ancestor-or-self::*" mode="path"/>
         <xsl:text>&#xA;</xsl:text>
        </xsl:if>
        <xsl:apply-templates select="@*|*"/>
    </xsl:template>

    <xsl:template match="*" mode="path">
        <xsl:value-of select="concat('/',name())"/>
        <xsl:variable name="vnumPrecSiblings" select=
         "count(preceding-sibling::*[name()=name(current())])"/>
        <xsl:if test="$vnumPrecSiblings">
            <xsl:value-of select="concat('[', $vnumPrecSiblings +1, ']')"/>
        </xsl:if>
    </xsl:template>

    <xsl:template match="@*">
        <xsl:apply-templates select="../ancestor-or-self::*" mode="path"/>
        <xsl:value-of select="concat('/@',name())"/>
        <xsl:text>&#xA;</xsl:text>
    </xsl:template>
</xsl:stylesheet>

$xslDoc = new \DOMDocument();
$xslDoc->substituteEntities = true;
$xslDoc->load('getpath.xsl');

$xmlDoc = new \DOMDocument();
$xmlDoc->load('myxml.xml');

$proc = new \XSLTProcessor();
$proc->importStylesheet($xslDoc);
$rest = $proc->transformToXML($xmlDoc);

$res = preg_replace("/\\s/"," ", $rest);

$path = explode(" ", $res);

foreach ($path as $key => $value) {
    if(!empty($value) && !preg_match("/\[.*\]/", $value))
        $fields[] = $value;
}

return $fields;

此代码给我

/products/@nb
/products/@type
/products/product/@ean
/products/product/sku
/products/product/parameters/short_desc
/products/product/parameters/price
/products/product/parameters/price/@currency
缺少

/ products / product / parameters / long_desc和/ products / product / parameters / price / vat :(

如何使用xslt解析完整的XML?或者你有一个没有XSLT的解决方案???

1 个答案:

答案 0 :(得分:1)

是的,你可以用PHP中的一些Xpath做到这一点。

$dom = new DOMDocument();
$dom->loadXml($xml);
$xpath = new DOMXpath($dom);

function getNodeExpression(DOMNode $node, array &$namespaces) {
  $name = $node->localName;
  $namespace = $node->namespaceURI;
  if ($namespace == '') {
    return ($node instanceOf DOMAttr ? '@' : '').$name;
  } elseif (isset($namespaces[$namespace])) {
    $prefix = $namespaces[$namespace];
  } else {
    $xmlns = $prefix = ($node->prefix == '') ? 'ns' : $node->prefix;
    $i = 1;
    while (in_array($xmlns, $namespaces)) {
      $xmlns = $prefix.'-'.$i;
      $i++;
    }
    $namespaces[$namespace] = $prefix;
  }
  return ($node instanceOf DOMAttr ? '@' : '').$prefix.':'.$name;
}

$result = [];
$namespaces= [];
foreach ($xpath->evaluate('//*[count(*) = 0]|//@*') as $node) {
  $path = '';
  foreach ($xpath->evaluate('ancestor::*', $node) as $parent) {
    $path = '/'.getNodeExpression($parent, $namespaces);
  }
  $path .= '/'.getNodeExpression($node, $namespaces);
  $result[$path] = TRUE;
}

输出:https://eval.in/118054

array(10) {
  [0]=>
  string(13) "/products/@nb"
  [1]=>
  string(15) "/products/@type"
  [2]=>
  string(13) "/product/@ean"
  [3]=>
  string(12) "/product/sku"
  [4]=>
  string(22) "/parameters/short_desc"
  [5]=>
  string(17) "/parameters/price"
  [6]=>
  string(16) "/price/@currency"
  [7]=>
  string(21) "/parameters/long_desc"
  [8]=>
  string(20) "/long_desc/@xml:lang"
  [9]=>
  string(15) "/parameters/vat"
}
array(1) {
  ["http://www.w3.org/XML/1998/namespace"]=>
  string(3) "xml"
}

此处的复杂部分是解析命名空间并为它们生成前缀。所以让我们详细了解一下:

获取本地名称(不带名称空间前缀的标记名称)和名称空间。

$name = $node->localName;
$namespace = $node->namespaceURI;

如果命名空间为空,我们不需要任何前缀只返回一个只包含节点名称的表达式。

  if ($namespace == '') {
    return ($node instanceOf DOMAttr ? '@' : '').$name;

否则,检查命名空间是否已在另一个节点上使用并重用该前缀。

  } elseif (isset($namespaces[$namespace])) {
    $prefix = $namespaces[$namespace];

如果这是一个未知的命名空间,请读取此节点上使用的前缀。如果节点未使用前缀,请使用字符串“ns”。

  } else {
    $xmlns = $prefix = ($node->prefix == '') ? 'ns' : $node->prefix;

验证前缀尚未用于另一个命名空间添加数字并增加它,直到我们有一个唯一的前缀。

    $i = 1;
    while (in_array($xmlns, $namespaces)) {
      $xmlns = $prefix.'-'.$i;
      $i++;
    }

存储namespace =&gt;下一次通话的前缀定义。

    $namespaces[$namespace] = $prefix;

返回包含前缀的表达式。

  return ($node instanceOf DOMAttr ? '@' : '').$prefix.':'.$name;

命名空间数组可用于在Xpath对象上注册所有需要的命名空间前缀。