替代htmlentities($ string,ENT_SUBSTITUTE)

时间:2013-08-07 13:01:49

标签: php special-characters html-entities

我有一个愚蠢的问题;

目前我正在为服务器上的公司建立一个网站,实际上有一个过时的PHP版本(5.2.17)。我有一个数据库,其中许多字段是varchar,其中包含'éäèê'等字符,我必须在HTML页面中显示。

因为PHP的版本已经过时(并且我不允许更新它,因为网站的某些部分必须继续工作以及我没有访问权限可以编辑它们)我无法使用htmlentities函数使用ENT_SUBSTITUTE参数,因为它仅在版本5.4之后添加。

所以我的问题是:

  

是否存在替代品    htmlentities($ string,ENT_SUBSTITUTE); 或者我是否必须编写一个函数   我自己有各种奇怪的角色,无论如何都不完整。

3 个答案:

答案 0 :(得分:2)

定义一个处理格式错误的字节序列的函数,并在将字符串传递给htmlentties之前调用该函数。有多种方法可以定义函数。

首先,如果您不使用Windows,请尝试使用UConverter :: transcode。

http://pecl.php.net/package/intl

如果您愿意直接处理字节,请参阅我之前的答案。

https://stackoverflow.com/a/13695364/531320

最后一个选项是开发PHP扩展。感谢php_next_utf8_char,这并不难。 这是代码示例。 “scrub”这个名字来自Ruby 2.1(见Equivalent of Iconv.conv("UTF-8//IGNORE",...) in Ruby 1.9.X?

// header file
// PHP_FUNCTION(utf8_scrub);

#include "ext/standard/html.h"
#include "ext/standard/php_smart_str.h"

const zend_function_entry utf8_string_functions[] = {
    PHP_FE(utf8_scrub, NULL)
    PHP_FE_END
};

PHP_FUNCTION(utf8_scrub)
{
    char *str = NULL;
    int len, status;
    size_t pos = 0, old_pos;
    unsigned int code_point;
    smart_str buf = {0};

    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s", &str, &len) == FAILURE) {
        return;
    }

    while (pos < len) {

        old_pos = pos;
        code_point = php_next_utf8_char((const unsigned char *) str, len, &pos, &status);

        if (status == FAILURE) {

            smart_str_appendl(&buf, "\xEF\xBF\xBD", 3);

        } else {

            smart_str_appendl(&buf, str + old_pos, pos - old_pos);

        }

    }

    smart_str_0(&buf);
    RETURN_STRINGL(buf.c, buf.len, 0);
    smart_str_free(&buf);
}

答案 1 :(得分:0)

如果您的编码处理正确,则不需要ENT_SUBSTITUTE

如果你的数据库中的字符是utf-8,存储在utf-8中,读入utf-8并在utf-8中显示给用户应该没有问题。

答案 2 :(得分:0)

添加

if (!defined('ENT_SUBSTITUTE')) define('ENT_SUBSTITUTE', 0);

并且您可以将ENT_SUBSTITUTE用于htmlentities。