PHP DOM函数添加了额外的<p>和标签

时间:2017-09-27 17:31:53

标签: php html5 dom domdocument

我使用以下功能向桌面和移动用户显示不同的图像,具体取决于他们的设备。

我的index.php文件

<!DOCTYPE html>
<html class="no-js" lang="en">
<head>
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <title>Testing Page</title>
</head>
<body>
<?php 
define("DEVICE", "desktop");
ob_start(); 
?>
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<?php echo 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.' . '<br/>'?> 
<div>
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
<img src="/desktop-img/blog-1.png" alt="blog-1">
<img src="/desktop-img/blog-2.png" alt="blog-2">
<img src="/desktop-img/blog-3.png" alt="blog-3">
</div>
<?php
// Assign bufferred content to a variable for further processing
$content = ob_get_clean();

// Device specific images
function selectPaths($tag){

    // If paths is wrapped in <pre> or <code> tags
    if($tag->nodeName=="pre" || $tag->nodeName=="code"){
        return;
    // If not wrapped witihn <pre> or <code> tags
    } elseif($tag->nodeName=="img"){
        // Replace device specific path
        $tag->attributes->getNamedItem("src")->nodeValue=str_replace('desktop-img', DEVICE . '-img',$tag->attributes->getNamedItem("src")->nodeValue);
    } elseif($tag->hasChildNodes()){
        foreach($tag->childNodes as $child){
            selectPaths($child);
        }
    }
}

function deviceImages($content){

    $dom=new DOMDocument;
    $dom->preserveWhiteSpace=true;
    libxml_use_internal_errors(true);
    $dom->loadHTML($content);
    libxml_clear_errors();
    $root=$dom->documentElement;
    selectPaths($root);
    $dom->formatOutput=false;
    //Assign to variable
    $content = $dom->saveHTML($root);
    return $content;
}
$content = deviceImages ($content);
?>
<div id='wrapper'>
    <?php echo $content; ?>
</div>
</body>
</html>

我的挑战:

此功能正在为我的输出添加<p>标记以及额外的<html><body>标记。

我的输出图片 enter image description here

我的输出源代码

<!DOCTYPE html>
<html class="no-js" lang="en">
<head>
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <title>Testing Page</title>
</head>
<body>
<div id='wrapper'>
    <html><body>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br> 
Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br> 
Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br> 
Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br> 
Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br> 
Lorem ipsum dolor sit amet, consectetur adipiscing elit.<br></p>
<div>
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
<img src="/desktop-img/blog-1.png" alt="blog-1"><img src="/desktop-img/blog-2.png" alt="blog-2"><img src="/desktop-img/blog-3.png" alt="blog-3">
</div>
</body></html></div>
</body>
</html>

我的输出源代码图片

enter image description here

我的问题:

如何避免使用此<p> <html><body>代码?

已更新

根据@Aknosis关于<br/>标记的建议进行了更新。

2 个答案:

答案 0 :(得分:2)

您输出的内容是通过DOMDocument的saveHTML方法生成的:

<html>

您在此处引用根节点,即documentElement,它是您不想输出的$body = $doc->getElementsByTagName('body')->item(0); $content = implode( "", array_map([$doc, 'saveHTML'], iterator_to_array($body->childNodes)) ); echo $content; 元素的父元素。因此,选择要输出的正确元素,例如该文件的正文。

<body>

在您的情况下,我认为您使用第一个<p>元素代替File "C:/Users/palak/Desktop/mergemodels\apps\sharedmodels\models.py", line 15, in <module> class Address(models.Model): File "C:/Users/palak/Desktop/mergemodels\apps\sharedmodels\models.py", line 16, in Address agent = models.Foreignkey('apps.agent.Agent') TypeError: object() takes no parameters 元素。

对于某些相关案例,可能需要采用不同的方法,此处还有针对该主题的其他Q&amp; A材料:

答案 1 :(得分:0)

好像DOMDocument总是需要一个根标记,因此,如果您放置没有任何父HTML标记的原始文本,DOMDocument将会隐式添加(因此some text变成<p>some text</p> )。我能想到的最好的办法是显式添加根标记,并将其从saveHTML()结果中删除:

$dom->loadHTML(
    '<html><body>' . $html . '</body></html>',
    LIBXML_HTML_NODEFDTD | LIBXML_HTML_NOIMPLIED
);

// do your stuff

$result = str_replace(['<html><body>', '</body></html>'], '', $dom->saveHTML());