我最近正在处理的网站有一个数据库问题,显然当它们恢复表格时,任何带有奇怪符号的文本字段(例如半符号和度数符号)的文本字段停止在该字符之前就已损坏符号)。我有一份表的副本,并将其提取到下面的代码:
CREATE TABLE `products2` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`description` text CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
PRIMARY KEY (`id`)
) DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
insert into products2 values
(25, 0x
这会引发错误:
#1366 - Incorrect string value: '\xBD Digi...' for column 'description' at row 1
在stackoverflow和网络上查看这个问题似乎是编码的问题,我尝试将描述字段上的排序更改为utf_unicode_ci,并将表的排序更改为utf_bin(以及这些的所有组合)一切都没有用。
我无法重做转储,因为它是备份。我不明白系统如何输出转储但不接受它 - 可能是备份是通过命令行(不确定),我使用PHPMyAdmin来恢复它我不知道是否有所作为。< / p>
如果无法导入数据,我会很高兴有人能告诉我如何将编码数据读入文本,然后我可以手动剪切和粘贴。
答案 0 :(得分:5)
将前32个字节解码为ASCII,我们有(其中?
是MySQL抱怨的0xBD
字节):
The DPM 912 is a large 3? Digit
一点点谷歌搜索“DPM 912”suggests to me该角色应该是粗俗的一半,½。
A number of character sets使用字节0xBD
编码该字符,但特别是跳出一个字符:windows-1252
- 这不仅是(前Unicode)Windows世界中的默认代码页,但也是MySQL's default encoding。我们很好地猜测您的数据是以windows-1252
编码的。
如the MySQL manual中所述,您可以通过在其前面加上编码名称来指定字符串文字的编码:
字符串文字可能有一个可选的字符集介绍人和
COLLATE
子句:[_charset_name]'string' [COLLATE collation_name]
接着说:
在标准十六进制文字和数字十六进制文字符号(
x'literal'
和0xnnnn
)之前,或者在位字段文字符号(b'literal'
和0bnnnn
之前,介绍人也是合法的)。
因此(并且因为MySQL将windows-1252
称为latin1
),您可以将INSERT
命令更改为:
INSERT INTO products2 VALUES (25, _latin1 0x5468652044504D203931322069...);
文档还说明:
对于简单语句
SELECT 'string'
,字符串具有由character_set_connection
和collation_connection
系统变量定义的字符集和排序规则。
也就是说,如果省略这样的介绍人(就像在原始INSERT
语句中那样),则假定字符集是由character_set_connection
系统变量定义的。
如上所述here,设置该变量有多种方法(包括在客户端连接时指定它,在phpMyAdmin中使用[DefaultCharset]
配置选项设置,其默认值在v3.4之前是latin1
,但是之后一直是utf8
- 也许这个改变是你问题的根源;也可以用[Import][charset]
指定导入文件的字符集。如果在连接时未指定所需的字符集,则在连接之后但在INSERT
命令修复之前发出任何这些命令(例如,您可以将其中一个添加到转储文件的顶部) ):
SET NAMES 'latin1';
SET CHARACTER SET latin1;
SET character_set_connection = latin1;
我的推荐,即使转储文件尽可能可移植,将SET NAMES 'latin1'
添加到其顶部。