如何区分DOMDocument中的空元素和空大小的字符串?

时间:2014-06-07 14:06:53

标签: php xml

我无法将XML文档加载到DOM中,从而保留空标记和空大小的字符串。这里的例子是:

$doc = new DOMDocument("1.0", "utf-8");

$root = $doc->createElement("root");
$doc->appendChild($root);

$element = $doc->createElement("element");
$root->appendChild($element);

echo $doc->saveXML();

生成以下XML:

<?xml version="1.0" encoding="utf-8"?>
<root><element/></root>

空元素,完全符合预期。现在让我们将空文本节点添加到元素中。

$doc = new DOMDocument("1.0", "utf-8");

$root = $doc->createElement("root");
$doc->appendChild($root);

$element = $doc->createElement("element");
$element->appendChild($doc->createTextNode(""));
$root->appendChild($element);

echo $doc->saveXML();

生成以下XML:

<?xml version="1.0" encoding="utf-8"?>
<root><element></element></root>

具有空大小字符串的非空元素。好!但是当我想要做的时候:

$doc = new DOMDocument();
$doc->loadXML($xml);

echo $doc->saveXML($doc);

这些XML文档我总是得到

<?xml version="1.0" encoding="utf-8"?>
<root><element/></root>

即删除null-size字符串,只加载空元素。我相信它发生在loadXML()上。 有没有办法说服DOMDocument loadXML()不要将null-size字符串转换为空元素?如果DOM将TextNode的null-size字符串作为元素的子元素,那将更为可取。

由于进一步加载数据的方式,需要在PHP DOM中使用解决方案。

3 个答案:

答案 0 :(得分:3)

区分这两者的问题是,当 DOMDocument 加载XML序列化文档时,它只遵循规范。

在本书中,<element></element>在该元素中有 no 空文本节点 - 这也是其他人已经评论过的内容。

但是,如果你自己插入一个空的文本节点, DOMDocument 就完全没问题。然后,您可以轻松区分自动关闭标记(无子项)和空元素(具有一个子项,空文本节点)。

那么如何输入那些空的文本节点呢?例如,使用the XMLReader based XMLReaderIterator library,特别是 DOMReadingIteration ,它可以构建文档,同时提供每个当前的XMLReader节点进行交互:

$doc = new DOMDocument();

$iterator = new DOMReadingIteration($doc, $reader);

foreach ($iterator as $index => $value) {
    // Preserve empty elements as non-self-closing by making them non-empty with a single text-node
    // children that has zero-length text
    if ($iterator->isEndElementOfEmptyElement()) {
        $iterator->getLastNode()->appendChild(new DOMText(''));
    }
}

echo $doc->saveXML();

这给你输入:

<?xml version="1.0" encoding="utf-8"?>
<root><element></element></root>

此输出:

<?xml version="1.0"?>
<root><element></element></root>

没有附加条件。精细构建 DOMDocument 。该示例来自examples/read-into-dom.php,并且通过 XMLReader 加载文档并且处理您所拥有的单个特殊情况时,可以很好地证明它没有问题。

答案 1 :(得分:2)

加载XML解析器没有区别。 DOM完全相同。

如果加载/保存存在空标记问题的XML格式,则可以使用选项来避免保存时出现空标记:

$dom = new DOMDocument();
$dom->appendChild($dom->createElement('foo'));

echo $dom->saveXml();
echo "\n";
echo $dom->saveXml(NULL, LIBXML_NOEMPTYTAG);

输出:

<?xml version="1.0"?>
<foo/>

<?xml version="1.0"?>
<foo></foo>

答案 2 :(得分:0)

您可以通过假装xsl:value-of插入变量来欺骗XSLT处理器不使用自闭元素,但该变量是空字符串''

<强>输入:

<?xml version="1.0" encoding="utf-8"?>
<root>
  <foo>
    <bar some="value"></bar>
    <self-closing attr="foobar" val="3.5"/>
  </foo>
  <goo>
    <gle>
      <nope/>
    </gle>
  </goo>
</root>

<强>样式表:

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

    <xsl:output method="xml" indent="yes"/>

    <xsl:template match="@* | node()">
        <xsl:copy>
            <xsl:apply-templates select="@* | node()"/>
        </xsl:copy>
    </xsl:template>

  <xsl:template match="*[not(node())]">
    <xsl:copy>
      <xsl:for-each select="@*">
        <xsl:attribute name="{name()}">
          <xsl:value-of select="."/>
        </xsl:attribute>
      </xsl:for-each>
      <xsl:value-of select="''"/>
    </xsl:copy>
  </xsl:template>
</xsl:stylesheet>

<强>输出:

<?xml version="1.0" encoding="utf-8"?>
<root>
  <foo>
    <bar some="value"></bar>
    <self-closing attr="foobar" val="3.5"></self-closing>
  </foo>
  <goo>
    <gle>
      <nope></nope>
    </gle>
  </goo>
</root>

要在不使用XSLT处理器的情况下在PHP中解决这个问题,我只能想到将空文本节点添加到没有子节点的所有元素(就像在创建XML时那样)。