将具有未知编码的文本文件转换为utf-8

时间:2017-02-09 17:31:44

标签: unix utf-8 character-encoding

我需要使用unix命令将大约一百万行的非常大的文本文件转换为utf-8。 起初我只是在Notepad ++中打开它,玩弄编码并找到一个我认为有用的。看起来很好。但是当我滚动浏览文件时,我发现了几千行看起来像这样:

ü']žÚ'²?ÿ짥íE¤•DV³·±•¢‡èÓ'áÐþœõ«©*我们...,±œhÚZŠ§Þ

我尝试了Notepad ++中的每个编码,但它没有用。 我也在unix中尝试了文件-bi命令,但它只是说: 应用/八位字节流;字符集=二进制

然后我从文件的不同部分提取了两个不同的行,将它们分别写入一个新的文本文件中,然后在它们上面尝试文件-bi命令。对于第一个它说的是相同的,对于第二个它说:text / plain;字符集=未知-8位

当我尝试第一次使用的编码时,它看起来很好,但是当我在大文件中使用编码时,该行看起来像垃圾,即使前40000行显得很好。

在谈到这一点时,我并不是一个精灵,但这对我很重要,我希望你能提供帮助。

尽管我不知道那是做什么的,但我试过了hexdump file.txt。无论如何我得到了这个:

0000000 4eeb b6cf 0000 4b62 dd92 53f5 6364 f902
0000010 6cb1 ed9f 06a2 956b 2b98 8278 1583 857b
0000020 bb66 65c9 eb7b 1441 bad0 161b 24ec 3320
0000030 6992 cff0 737a 9498 1dc1 45ca 88f1 2da5
0000040 8e01 59e4 2acc 53bf 1568 e3e8 09ff 11e7
0000050 d7b5 18e5 6d20 c603 deb4 13ea feff 44ef
0000060 fbeb ecea 3135 01d8 7f49 5bd9 4c3e d3b4
0000070 cdf3 7556 8de9 1a52 c1b7 a8d6 d418 190c
0000080 2616 d63e 3714 e45d 1513 9ad6 14aa 63c9
0000090 8286 71cc 8221 51e8 b393 5c7b 59c2 4290
00000a0 7a36 5fd2 4222 22a5 5f9e 39d7 22d6 f22f
00000b0 7377 7541 904a e351 4010 cdf3 118b e226
00000c0 21e0 d4c5 553c 5f4e 5377 667d 3d96 a157
00000d0 2469 6edb 0c48 9d50 052a 000a
00000db

0 个答案:

没有答案