如何合并这些3,500个混合字符集文本文件?

时间:2014-02-13 23:50:07

标签: linux text

我有大约3,500个混合字符集的文本文件:ISO-8859,UTF-8,ASCII,UTF-16,以及其他人。

我想将它们全部合并到一个unicode文本文件中,因此我可以在它上面运行一个期望它的Python脚本。

如果我使用cat,它就不起作用。

解决这个问题的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

您可以使用iconv之类的工具预先转换它们,或者使用正确的编码(setting the correct encoding to open)将它们加载到Python中。

如果您不知道每个文件的编码是什么,那么它会更复杂,因为您需要检测每个文件的编码。有许多启发式方法,但不是绝对标准的方法来做到这一点。同样,使用iconv可以在这里提供很多帮助。