文件读取到DB插入导致unicode字符串

时间:2017-10-10 16:59:26

标签: php mysql json

我正在从文件中读取JSON字符串,解析它,然后将数据插入MySQL数据库。我的插入查询抛出以下错误:

SQLSTATE[HY000]: General error: 1366 Incorrect string value: '\xE3\xADs' for column 'fname' at row 1

我认为导致错误的内容是名称í中的Ailís(我在调用错误之前回显了ID)。

  • 该文件是UTF8编码的
  • 我正在使用UTF8上下文阅读文件
  • 我正在检查数据的编码是UTF8(它是)
  • 我的PDO连接有一个UTF8字符集,以及SET NAMES utf8
  • 数据库采用UTF8编码
  • 该表是UTF8编码的
  • 该列是UTF8编码的

代码:

$opts = ['http' => ['header' => 'Accept-Charset: UTF-8, *;q=0']];
$context = stream_context_create($opts);
$post = file_get_contents('sample_data/11111a_json_upload.json',false, $context);
if(!mb_check_encoding($post, 'UTF-8'))
    throw new Exception('Invalid encoding detected.');
$data = json_decode($post, true);

在解码JSON之前,我还插入了以下函数:

static function clean_unicode_literals($string)
{
    return preg_replace_callback('@\\\(x)?([0-9a-zA-Z]{2,3})@',
        function ($m) {
            if ($m[1]) {
                $hex = substr($m[2], 0, 2);
                $unhex = chr(hexdec($hex));
                if (strlen($m[2]) > 2) {
                    $unhex .= substr($m[2], 2);
                }
                return $unhex;
            } else {
                return chr(octdec($m[2]));
            }
        }, $string);
}

当我读取原始文件时,当我将解析后的数据回显到浏览器时,名称会正确显示。因此,我认为问题出在我的联系中?

我创建了一个新的PDO实例:

public function __construct($db_user, $db_pass, $db_name, $db_host, $charset)
{
    if(!is_null($db_name))
        $dsn = 'mysql:host=' . $db_host . ';dbname=' . $db_name . ';charset=' . $charset;
    else
        $dsn = 'mysql:host=' . $db_host . ';charset=' . $charset;

    $options = [
        PDO::ATTR_PERSISTENT => true,
        PDO::ATTR_ERRMODE    => PDO::ERRMODE_EXCEPTION,
        PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES 'utf8'"
    ];

    try
    {
        $this->db_handler = new PDO($dsn, $db_user, $db_pass, $options);
        $this->db_handler->exec('SET NAMES utf8');
        $this->db_valid = true;
    }
    catch(PDOException $e)
    {
        $this->db_error = $e->getMessage();
        $this->db_valid = false;
    }

    return $this->db_valid;
}

(SET NAMES有两次,我在排除故障......) 数据库,表和列charset设置为utf8_general_ci

我的IDE是PHPStorm,我在Windows 10上运行WAMP MySQL 5.7.14。

1 个答案:

答案 0 :(得分:1)

输入字符串肯定有问题:\xE3\xADs

第一个半字节E表示它应该是一个3字节的UTF-8序列,但只有两个字节。

它绝对不是í,而是双字节序列\xC3\xAD

我不得不想知道为什么你在那里有clean_unicode_literals函数,因为根据JSON规范,所有JSON字符串和文档都应该是有效的UTF-8。

尝试删除clean_unicode_literals来电,如果您仍然收到错误,则说明源数据已损坏。