应用错误收集

我正在使用一些平面文件集成数据。我将FTP提供的平面文件作为.csv文件从业务合作伙伴的MS SQL导出中获取。

我让他把它编码为UTF-8（只是使用我认为的标准）。现在我可以在他的文件中看到很多UTF-8字节，例如“＆amp;＃2 3 3;”当我在Notedpad ++（或者也使用我的“ETL”工具）中打开它时，（没有空格）可以看作是纯文本。

在我要求他将其修复为正确的UTF-8之前，我想了解这个问题以及我的主张是否真的正确？

当我在Notepad ++中打开特殊字符而不是纯文本UTF-8代码时，不应该将特殊字符显示为特殊字符吗？

非常感谢任何帮助：））

干杯马丁

é是 HTML实体。由于某种原因，文本是HTML格式的，我不会将其视为“明文”/平面文件。除此之外，该文件可能也可能不是UTF-8编码，我们根据给出的信息不知道。

在UTF-8中编码的包含“特殊字符”（意思是非ASCII字符）的文件在文本编辑器中打开，该编辑器正确地将文件解释为UTF-8看起来与它应该看起来的文本完全相同，例如：

正式名称は，ISO / IEC 10646では“UCS Transformation Format 8”，Unicodeでは“Unicode Transformation Format-8”という。両者はISO / IEC 10646とUnicodeのコード重复范囲で互互性がある.RFCにも仕様がある。

将它放在一个文件中，保存为UTF-8，在另一个应用程序中以UTF-8 打开它，这就是文本的样子。

如何在记事本++中使用正确的UTF-8编码文件

1 个答案: