如何在不破坏标记层次结构的情况下在PHP中剪切HTML文本

时间:2015-03-09 21:57:02

标签: php html text trim strip-tags

我正在尝试修剪一些HTML文本并找到一个帖子但是还不能评论它因为我是新的(Using PHP substr() and strip_tags() while retaining formatting and without breaking HTML

首先我创建函数 preview (输入:html文本或纯文本,char数,如果想要纯文本输出,则为boolean)但是当我尝试扩展功能以使用HTML标签时,问题开始

我使用其他帖子中的函数html_cut()关闭标签,但我需要一些嵌套标签,我认为该函数关闭了它找到的每个标签,因此它打破了层次结构。 (它实际上是问题还是我错了?)

function preview($text, $char, $sinhtml){
    if(strlen($text) > $char){
        $post = substr($text, $char, 1);
        if ($post != " "){
            $i = true;
            while($post != " "){
                if($char > 0 && $i){
                    $char--;
                    $post = substr($text, $char, 1);
                }elseif($char == 0){
                    $i = false;
                    $char++;
                }else{
                    $char++;
                    $post = substr($text, $char, 1);
                }
            }
        }
        $post = substr($text, 0, $char);
        $post .= " …";
        if($sinhtml){
            return strip_tags($post);
        }else{
-->         return $post;
        }
    }else{
        return $text;
    }
}

输入文字是这样的

<p> Some text… </p>
<ul>
   <li>Technical Description</li>
   <li>or Details (weight, size, etc.)</li>
   <li>…</li>
</ul>
<p>may be some more text</p>

函数html_cut()有一条我以前从未见过的行,不知道它的作用...... $ symbol = $ text {$ i}

function html_cut($text, $max_length)
{
    $tags   = array();
    $result = "";

    $is_open   = false;
    $grab_open = false;
    $is_close  = false;
    $in_double_quotes = false;
    $in_single_quotes = false;
    $tag = "";

    $i = 0;
    $stripped = 0;

    $stripped_text = strip_tags($text);

    while ($i < strlen($text) && $stripped < strlen($stripped_text) && $stripped < $max_length)
    {
        $symbol  = $text{$i};
        $result .= $symbol;

        switch ($symbol)
        {
           case '<':
                $is_open   = true;
                $grab_open = true;
                break;

           case '"':
               if ($in_double_quotes)
                   $in_double_quotes = false;
               else
                   $in_double_quotes = true;

            break;

            case "'":
              if ($in_single_quotes)
                  $in_single_quotes = false;
              else
                  $in_single_quotes = true;

            break;

            case '/':
                if ($is_open && !$in_double_quotes && !$in_single_quotes)
                {
                    $is_close  = true;
                    $is_open   = false;
                    $grab_open = false;
                }

                break;

            case ' ':
                if ($is_open)
                    $grab_open = false;
                else
                    $stripped++;

                break;

            case '>':
                if ($is_open)
                {
                    $is_open   = false;
                    $grab_open = false;
                    array_push($tags, $tag);
                    $tag = "";
                }
                else if ($is_close)
                {
                    $is_close = false;
                    array_pop($tags);
                    $tag = "";
                }

                break;

            default:
                if ($grab_open || $is_close)
                    $tag .= $symbol;

                if (!$is_open && !$is_close)
                    $stripped++;
        }

        $i++;
    }

    while ($tags)
        $result .= "</".array_pop($tags).">";

    return $result;
}

1 个答案:

答案 0 :(得分:0)

尝试使用HTML parserTidy HTML. 用于检查嵌套标记