我有大约3,500个混合字符集的文本文件:ISO-8859,UTF-8,ASCII,UTF-16,以及其他人。
我想将它们全部合并到一个unicode文本文件中,因此我可以在它上面运行一个期望它的Python脚本。
如果我使用cat
,它就不起作用。
解决这个问题的最佳方法是什么?
答案 0 :(得分:0)
您可以使用iconv
之类的工具预先转换它们,或者使用正确的编码(setting the correct encoding to open
)将它们加载到Python中。
如果您不知道每个文件的编码是什么,那么它会更复杂,因为您需要检测每个文件的编码。有许多启发式方法,但不是绝对标准的方法来做到这一点。同样,使用iconv
可以在这里提供很多帮助。