合并具有不同字符编码的文本文件

时间:2016-01-19 07:26:33

标签: windows text unicode cmd character-encoding

我正在尝试将目录中的文本文件内容合并到一个文本文件中。

有些文本文件用ANSI编码,有些用UTF-8编码,有些用UTF-8编码,带有BOM和其他字符编码。

我尝试与type和copy命令合并,但结果文件将包含奇怪的字符。例如,“ö”变为“¶”。其他欧洲/重音字母也搞砸了。此外,有些行以“”开头,经过一些调查后实际上是看不见的BOM字符。

如何将这些文本文件合并为一个保留其可读形式的文件?我对Windows CMD旁边的建议持开放态度。

1 个答案:

答案 0 :(得分:1)

您无法盲目合并文件。如果您知道哪些文件是哪种编码,那么您可以使用工具在合并之前将它们重新编码为常用表示形式,例如UTF-8。例如,在Python 3.x中,这会将各种编码的四个文件连接成一个通用的UTF-8编码文件(未经测试):

#!python3

files = [('file1.txt','cp1252'),
         ('file2.txt','utf8'),
         ('file3.txt','utf-8-sig'),
         ('file4.txt','chinese')]

with open('output.txt','w',encoding='utf8') as out:
    for filename,encoding in files:
        with open(filename,encoding=encoding) as f:
            out.write(f.read())