我正在尝试从unicode提供的unihan.zip文件中构建一个包含中文unicode数据的数据库。
但是,该文件仅提供指定的十六进制代码点中的字符。 (例如" U + 547D")。
我的想法是手动转换(使用excel?)这些代码点,例如" U + 547D"到"命"在保存为CSV UTF-8之前,使用phpmyadmin导入mysql,我知道有效。
只是想知道phpmyadmin或mysql是否能够接受这种十六进制代码点格式作为导入此数据的更直接方式?
我已经搜索了很多这个答案,但没有找到任何答案。我也尝试过多种方式导入它,例如使用char函数,但表格只用" 0x547D"而不是"命"。
非常感谢任何见解和帮助。
答案 0 :(得分:0)
您可能希望使用PHP转换" 0x547D"到十进制,然后在将数据保存到数据库之前创建一个utf-8格式的字符,如"命"。如果是这样,请查看portable-utf8.php库,其中包含utf8_chr()函数。
顺便说一句,谢谢你让我知道unihan.zip ......我正在为汉字寻找一个免费且好的来源。