我有一个.csv的商家列表。该文件中包含一些奇怪的字符。例如,在此字段中Stocktonon-Tees
,Stockton
和on
之间的第一个连字符似乎是值为6
的字符而不是连字符,值为45
。堆栈溢出可能会对此进行整理,因此您无法看到它,因此这里是一个pastebin:
http://pastebin.com/NuyyaQy9
任何人都可以解释为什么会这样吗?我错过了一些编码问题吗?或者数据集中的损坏?
答案 0 :(得分:1)
是的,这几乎肯定是一个编码问题。文件只包含二进制数据 - 这就是解释重要二进制数据的方式。听起来像Notepad正在猜测最初想要的编码,但是你正在使用的其他任何东西都没有。
不幸的是,你没有说过什么软件试图读取文件或者首先写了什么 - 但你应该看看Notepad认为是什么编码,并从那里开始工作。
如果是您的代码将文件写出来,并且您决定编码,我建议使用UTF-8作为一种良好的通用平台可移植编码。