读取带有中文字符的CSV文件[无法显示一个字符]

时间:2016-06-19 03:58:21

标签: csv unicode chinese-locale

当我打开包含中文字符的csv文件时,使用Microsoft Excel,TextWrangler和Sublime Text,有一些中文单词,无法正常显示。我不知道为什么会这样。

具体来说,可以在以下链接中找到csv文件:https://www.hkex.com.hk/eng/plw/csv/List_of_Current_SEHK_EP.CSV

此处显示无法正确显示的单词之一: enter image description here

你可以看到一个?可以被找寻到。

按照建议使用mac file命令 http://osxdaily.com/2015/08/11/determine-file-type-encoding-command-line-mac-os-x/告诉我csv格式是utf-16le。

我想知道问题是什么,为什么我看不懂那个特定的文字? 它与编码有关吗?或者它与我的笔记本电脑设置有关?尝试在Mac上使用Mac和Windows 10(通过并行桌面)无法正确显示工作。

感谢您的帮助。我真的想知道为什么这个特定的文字无法正确显示。

1 个答案:

答案 0 :(得分:3)

汇丰证券的实际名称是:

  

汇丰金融证券(香港)有限公司

第一个字符U + 6ED9 是麻烦的HKSCS字符之一:标准的Unicode-Big-5中没有的字符,它们是以不兼容的方式嫁接的后面。

有一段时间,转换为Unicode时,将这些字符转换为私有使用区字符是一种不幸的惯例。这些数据可能会被转换回来,现在已被破坏,用U + E05E 私人使用区域字符替换

对于您确定是HKSCS-compatibility-bodge结果的PUA案例,您可以使用this table转换回正确的Unicode。