使用python进行西班牙语编码的问题?

时间:2014-10-24 19:02:14

标签: python parsing text encoding coding-style

我正在使用python和西班牙语言文本,我在编纂方面遇到了很多麻烦。我想保留所有标点符号。有没有办法将所有文本作为正确编码的对象包装?,我该如何解决这种编码问题?我也在研究OSX,我不知道这是问题。

我已经准备好了:# -*- coding: utf-8 -*-

使用此功能,我将一个包含大量.txt文件的文件夹连接起来:

import os
import shutil


def concatFiles():
    path = '/Users/user/Desktop/OpinionsTAG_txt/'
    files = os.listdir(path)
    with open("/Users/user/Desktop/output_concatFile.txt", "wb") as fo:
        for f in files:
            with open(os.path.join(path, f), "rb") as fi:
                shutil.copyfileobj(fi, fo)


if __name__ == "__main__":
    concatFiles()

问题是输出:Adem√°s_de adem√°s_de没有保留标点符号。这将是正确的输出:Además además。有没有办法将output_concatFile.txt包装为保留所有西班牙语文本而没有编码错误的对象,以便将它们应用于某些方法?我该如何解决这个问题?。

1 个答案:

答案 0 :(得分:1)

使用io.open代替内置open,并指定文件的编码。

您必须知道编码是什么。该文件无法告诉你。你的编辑不能告诉你。制作文件的人必须告诉你。