Question

我正在使用python和西班牙语言文本，我在编纂方面遇到了很多麻烦。我想保留所有标点符号。有没有办法将所有文本作为正确编码的对象包装？，我该如何解决这种编码问题？我也在研究OSX，我不知道这是问题。

我已经准备好了：# -*- coding: utf-8 -*-

使用此功能，我将一个包含大量.txt文件的文件夹连接起来：

import os
import shutil


def concatFiles():
    path = '/Users/user/Desktop/OpinionsTAG_txt/'
    files = os.listdir(path)
    with open("/Users/user/Desktop/output_concatFile.txt", "wb") as fo:
        for f in files:
            with open(os.path.join(path, f), "rb") as fi:
                shutil.copyfileobj(fi, fo)


if __name__ == "__main__":
    concatFiles()

问题是输出：Adem√°s_de adem√°s_de没有保留标点符号。这将是正确的输出：Además además。有没有办法将output_concatFile.txt包装为保留所有西班牙语文本而没有编码错误的对象，以便将它们应用于某些方法？我该如何解决这个问题？。

Answer 1

使用io.open代替内置open，并指定文件的编码。

您必须知道编码是什么。该文件无法告诉你。你的编辑不能告诉你。制作文件的人必须告诉你。

使用python进行西班牙语编码的问题？

1 个答案: