我正在努力将FAA的on-time performance dataset中的每月CSV连接到一个具有一致格式的大平面文件中。
这个数据的12个月(2001-02至2002-02)对尾数字段的值有奇怪的错误。例如:
这些值在ISO 8859-1中编码(它的utf8无效)。我通过在下一个月份的数据集中搜索尾号的“N ###”部分的唯一匹配来找到未加扰的值(尾号是飞机的注册号,并且不会逐月更改,所以我对此感到有信心。)
我无法弄清楚这是否是一些我以前从未见过的可以转换回UTF8的时髦文本编码方案 - 或者如果FAA用来编译CSV的代码中有一些错误,这个数据只是垃圾。
任何帮助解决这个问题将不胜感激。谢谢!
答案 0 :(得分:0)
我联系了美国航空公司信息办公室。显然,无论数据发生什么都是有损的,而且无法恢复正确的尾数。