如何用PHP DOM分别解析PCDATA和子元素?

时间:2017-05-25 19:06:56

标签: php xml dom parent-child pcdata

我试图解析dtbook的XML,其中包含稍后包含p-tag的级别(1,2和3)。我是用PHP DOM做的。 Link to XML

这些p-tag内部有一些noteref-tags。我确实掌握了这些,但似乎我能得到的唯一结果是noteref出现在p-tag之前,或之后。我需要一些noterefs出现在p-tag中;换句话说,他们实际应该在哪里。

<p>Special education for the ..... <noteref class="endnote" idref="fn_5"
id="note5">5</noteref>. Interest ..... 19th century <noteref class="endnote"
idref="fn_6" id="note6">6</noteref>.</p>

这是我现在为p-tag获得的代码。在此之前,我通过dt-book循环获取p-tag。这很好。

if($level1->tagName == "p") {
    echo "<p>".$level1->nodeValue;
    $noterefs = $level1->childNodes;
    foreach($noterefs as $noteref) {
        if($noteref->nodeType == XML_ELEMENT_NODE) {
            echo "<span><b>".$noteref->nodeValue."</b></span>";
        }
    }  
    echo "</p><br>";
}

这些是我得到的结果:

  

特殊教育...... 5.兴趣..... 19世纪6. 56

     

56 特殊教育..... 5.兴趣..... 19世纪6。

我还希望p-tag 显示noteref-tag中的内容。这应该由noteref-tag(仅限)完成。

那么,有人知道可以做些什么来解决这些问题吗?感觉就像我用Google搜索并尝试了几乎所有内容。

1 个答案:

答案 0 :(得分:0)

DOMNode->nodeValue(在PHP的DOMElement中与DOMNode->textContent相同)将包含来自其自身及其所有降序节点的完整文本内容。或者,更简单一点:它包含节点的完整内容,但删除了所有标签。

您可能想尝试的是类似以下内容(未经测试):

if($level1->tagName == "p") {
    echo "<p>";
    // loop through all childNodes, not just noteref elements
    foreach($level1->childNodes as $childNode) {
      // you could also use if() statements here, of course
      switch($childNode->nodeType) {
        // if it's just text
        case XML_TEXT_NODE:
          echo $childNode->nodeValue;
        break;
        // if it's an element
        case XML_ELEMENT_NODE:
          echo "<span><b>".$childNode->nodeValue."</b></span>";
        break;
      }
    }  
    echo "</p><br>";
}

请注意,这仍然相当脆弱。例如:如果除了<noteref>元素之外的任何其他元素显示在<p>元素中,它们也将包含在<span><b>元素中。

希望我至少能告诉你为什么结果<p>元素也显示了子元素的内容。

作为旁注:如果您想要实现的是将XML文档的内容转换为HTML或者某些其他XML结构,那么查看XSLT可能会有所回报。请注意,学习曲线可能很陡峭。