我正在使用一些平面文件集成数据。我将FTP提供的平面文件作为.csv文件从业务合作伙伴的MS SQL导出中获取。
我让他把它编码为UTF-8(只是使用我认为的标准)。 现在我可以在他的文件中看到很多UTF-8字节,例如“&#2 3 3;”当我在Notedpad ++(或者也使用我的“ETL”工具)中打开它时,(没有空格)可以看作是纯文本。
在我要求他将其修复为正确的UTF-8之前,我想了解这个问题以及我的主张是否真的正确?
当我在Notepad ++中打开特殊字符而不是纯文本UTF-8代码时,不应该将特殊字符显示为特殊字符吗?
非常感谢任何帮助:))
干杯 马丁
答案 0 :(得分:0)
é
是 HTML实体。由于某种原因,文本是HTML格式的,我不会将其视为“明文”/平面文件。除此之外,该文件可能也可能不是UTF-8编码,我们根据给出的信息不知道。
在UTF-8中编码的包含“特殊字符”(意思是非ASCII字符)的文件在文本编辑器中打开,该编辑器正确地将文件解释为UTF-8看起来与它应该看起来的文本完全相同,例如:
正式名称は,ISO / IEC 10646では“UCS Transformation Format 8”,Unicodeでは“Unicode Transformation Format-8”という。両者はISO / IEC 10646とUnicodeのコード重复范囲で互互性がある.RFCにも仕様がある。
将它放在一个文件中,保存为UTF-8,在另一个应用程序中以UTF-8 打开它,这就是文本的样子。