CSV中的时髦文本编码

时间:2018-06-01 20:42:02

标签: string csv encoding utf-8 iso-8859-1

我正在努力将FAA的on-time performance dataset中的每月CSV连接到一个具有一致格式的大平面文件中。

这个数据的12个月(2001-02至2002-02)对尾数字段的值有奇怪的错误。例如:

  • N299US成为N299äâ
  • N728UW成为N728Ræ
  • N615MQ变为-N615M

这些值在ISO 8859-1中编码(它的utf8无效)。我通过在下一个月份的数据集中搜索尾号的“N ###”部分的唯一匹配来找到未加扰的值(尾号是飞机的注册号,并且不会逐月更改,所以我对此感到有信心。)

我无法弄清楚这是否是一些我以前从未见过的可以转换回UTF8的时髦文本编码方案 - 或者如果FAA用来编译CSV的代码中有一些错误,这个数据只是垃圾。

任何帮助解决这个问题将不胜感激。谢谢!

1 个答案:

答案 0 :(得分:0)

我联系了美国航空公司信息办公室。显然,无论数据发生什么都是有损的,而且无法恢复正确的尾数。