为什么这个DOM-replaceNode函数有时会崩溃?

时间:2014-09-25 03:12:43

标签: php domdocument

第一个函数(下面)工作正常,在同一个DOMDocument的许多节点上循环... 但有时崩溃(没有错误消息但是停止服务器)。

当我们使用第二个(replace_innerXML_secure)时,在同一个节点循环中,它永远不会崩溃。为什么? 第一个有什么问题?

  • 首次使用$e->nodeValue=''删除所有 childNodes 它可以吗?);
  • 第二个保留一个(任意) childNode 并使用removeChild删除...一个额外的解决方法,以避免在某些标记存在时完全删除。

等同于"功能#1和#2:

// 1. What is wrong with THIS function??
function replace_innerXML(DOMNode $e,$innerXML='') {
    if ($e && ($innerXML>'' || $e->nodeValue>'')) {
        $e->nodeValue='';   
        if ($innerXML>'') {
            $tmp = $this->dom->createDocumentFragment();
            $tmp->appendXML($innerXML);
            $e->appendChild( $tmp );
        }
        return true;
    }
    return false;
}

// 2. Here a workaround... slower but... NOT crashes (!), WHY??
function replace_innerXML_secure(DOMNode $e,$innerXML='') {
    if ($e) {
        $tmp = $e->ownerDocument->createDocumentFragment();
        $tmp->appendXML($innerXML);
        $once=null;         
        foreach(iterator_to_array($e->childNodes) as $e2)
            if (!$once && $e2->nodeType===1) $once=$e2;
            else $e->removeChild($e2);
        if ($once)
            $once->parentNode->replaceChild( $tmp, $once );
        else {
            $e->nodeValue='';
            $e->appendChild( $tmp );
        }
        return true;
    }
    return false;
}

注意

某些例子,

EDIT2 表示@Prix请求。

循环非常复杂,但可以模拟为

   // use this with ANY (and a lot of) BIG HTML files from web... 
   // I have ~1 error/100 samples  
   $dom = new DOMDocument();
   $dom->load($file); // any XML, or loadHTMLfile() 

   $plst = array();  // you can take off the rand()
   foreach ($dom->getElementsByTagName('*') as $node) if (1 || rand(1,3)==1) {
      $plst[] = $node->getNodePath();
   }
   rsort($plst); // from leaves to root
   foreach ($plst as $p) {
      $xp = new DOMXpath($dom); // refresh for each $p
      $node = $xp->query($p);
      if ($node->length && $node=$node->item(0))
          // USING HERE the function#1 or #2:
          replace_innerXML($node,'<new x="1">text</new>');
   }
   $dom->normalizeDocument();

这里有一些$ dom的示例XML,但您可以使用任何$dom->loadHTML($file)来测试(!)。

  <?xml version="1.0" encoding="utf-8"?>

  <article dtd-version="3.0" article-type="research-article" xml:lang="en">
    <front><journal-meta>
        <journal-title-group><journal-title>text text text</journal-title>
        <abbrev-journal-title abbrev-type="acronym">aaaa</abbrev-journal-title>
        <abbrev-journal-title abbrev-type="publisher">aaabbb aaa</abbrev-journal-title>
        </journal-title-group>
        <etc>....</etc>
        <history><date date-type="received"><label>Received</label> 9 July 2014</date>
            <date date-type="accepted"><label>Accepted</label> 25 July 2014</date>
        </history>
    </journal-meta></front>
    <body>
        <p>Nonnnononn onononono  nonono</p>
        <fn><p><label>XXXXX yyyyy</label>: xxxx@aaa.com</p></fn>

        <p>Nonnnononn onononono  nonono nonono </p>
    </body>
  </article>

EDIT1 版本和日志

版本:

  • libxml2: 2.8.0 + dfsg1-7 + wheezy1
  • php5 :5.4.4-14 + deb7u14
  • apache2 :2.2.22-13 + deb7u3

日志:在哪里?我只知道/var/log/apache2/error.log,但没有错误(只有通常的png&#34;文件不存在&#34;存在于成功的http中)。

...在这台机器上,今天再次运行,在http崩溃之后,没有报告大的错误,只有&#34;文件不存在:/var/www/favicon.ico"在崩溃之前...但我还在在Ubuntu机器上运行,在那里我找到了一个关于崩溃日期和瞬间的报告:

 [Wed Oct 15 20:16:16.840578 2014] [core:notice] [pid 1770] AH00051: child pid 14873 exit signal Segmentation fault (11), possible coredump in /etc/apache2
 [Wed Oct 15 20:16:16.840684 2014] [core:notice] [pid 1770] AH00051: child pid 14879 exit signal Segmentation fault (11), possible coredump in /etc/apache2
 *** Error in `/usr/sbin/apache2': corrupted double-linked list: 0x00007f457b81af70 ***
 [Wed Oct 15 20:16:56.886473 2014] [core:notice] [pid 1770] AH00051: child pid 14844 exit signal Aborted (6), possible coredump in /etc/apache2
 [Wed Oct 15 20:16:57.887638 2014] [core:notice] [pid 1770] AH00051: child pid 14894 exit signal Segmentation fault (11), possible coredump in /etc/apache2

是的,一场大崩溃,没有关于为什么的线索。 (我记得 LibXML2 中的&#34;标准coredump问题&#34;是删除或写入不存在的节点。)

1 个答案:

答案 0 :(得分:-1)

虽然我没有发现任何奇怪的代码(在我的机器上使用一些XML测试它并发现没有问题),但我怀疑某些东西以某种方式使用它,这会导致无限递归。

进入过深递归的函数已知导致PHP SEGFAULT。 [12] 要么是这个,要么是严重的PHP / libxml2错误。

也许问题出在其他地方?