如何在记事本++中使用正确的UTF-8编码文件

时间:2016-05-24 09:01:03

标签: encoding utf-8

我正在使用一些平面文件集成数据。我将FTP提供的平面文件作为.csv文件从业务合作伙伴的MS SQL导出中获取。

我让他把它编码为UTF-8(只是使用我认为的标准)。 现在我可以在他的文件中看到很多UTF-8字节,例如“&#2 3 3;”当我在Notedpad ++(或者也使用我的“ETL”工具)中打开它时,(没有空格)可以看作是纯文本。

在我要求他将其修复为正确的UTF-8之前,我想了解这个问题以及我的主张是否真的正确?

当我在Notepad ++中打开特殊字符而不是纯文本UTF-8代码时,不应该将特殊字符显示为特殊字符吗?

非常感谢任何帮助:))

干杯 马丁

1 个答案:

答案 0 :(得分:0)

é HTML实体。由于某种原因,文本是HTML格式的,我不会将其视为“明文”/平面文件。除此之外,该文件可能也可能不是UTF-8编码,我们根据给出的信息不知道。

在UTF-8中编码的包含“特殊字符”(意思是非ASCII字符)的文件在文本编辑器中打开,该编辑器正确地将文件解释为UTF-8看起来与它应该看起来的文本完全相同,例如:

  

正式名称は,ISO / IEC 10646では“UCS Transformation Format 8”,Unicodeでは“Unicode Transformation Format-8”という。両者はISO / IEC 10646とUnicodeのコード重复范囲で互互性がある.RFCにも仕様がある。

将它放在一个文件中,保存为UTF-8,在另一个应用程序中以UTF-8 打开它,这就是文本的样子。