将unicode转换为HTML实体函数

时间:2017-02-21 23:06:28

标签: perl unicode utf-8 html-entities html-encode

我有以下函数将unicode转换为HTML实体,但是如果我再次对结果运行该函数,它将不会让HTML实体保持原状。如何让函数单独保留已转换的HTML实体?

sub convert_unicode {
    use HTML::Entities;
    use Encode;
    my $str = shift;
    Encode::_utf8_off($str);
    return encode_entities(decode('utf8',$str));
}

1 个答案:

答案 0 :(得分:3)

您要求的是能够安全地双重字符编码。有些编码允许这样做。 HTML字符编码不是因为它使用像&这样的某些字符来进行编码,它无法区分用于编码的特殊字符和需要编码的字符之间的区别。

例如......

use HTML::Entities;
use v5.10;
say encode_entities("&foo");

产生&amp;foo。如果我们再次编码它会产生&amp;amp;foo,因为&是一个特殊的字符,它忠实地编码。 我们不知道&amp;已经编码& ,因此会将其视为文字&amp;并对其进行编码。< / p>

可以编写自己的自定义HTML编码函数,假定&xxx;(及其变体)已经编码,但这只是猜测。您实际上无法区分文字&foo;和编码&foo;。例如,它会打破像&function;这样的旧学校Perl代码。也许你可以超级聪明并使用一个对象数组来指示哪些部分被编码并让整个事物重载字符串化,所以它看起来像一个字符串,只要一切都仔细保留那个看起来像的对象像一个字符串,它会工作......

现在我们进入lava flow anti-pattern,而不是修复糟糕的设计,更复杂和糟糕的设计在它之上。试图“修复”只会产生更多问题。真正的问题在于更深层次。

真正的问题是您要多次编码。这可能意味着您已将格式和功能结合在一起。例如......

sub get_user_name {
    my $uid = shift;

    my $name = ...do a bunch of work to get the user name...

    return encode_entities($name);
}

通过HTML编码数据,这样的函数可以假设数据将如何使用。它将其用途仅限于HTML。如果所有函数都执行此操作,则会出现双重编码问题。

那么也许你有这样的事情:

sub do_something {
    my $uid = shift;

    # $name is already HTML encoded.
    my $name = get_user_name($uid);

    my $stuff = ...something incorporating $name...

    # Whoops, the user name is double encoded.
    return encode_entities($stuff);
}

答案是将HTML格式和编码保留到最后一分钟。理想情况下,根本不要这样做,只需处理数据并让HTML模板系统处理它。例如Template Toolkit

这也提供了格式和代码之间的清晰分离,因此现在非程序员可以使用文档化的模板系统处理格式化。