Question

我正在使用Python（3.4，在Windows 7上）下载一组文本文件，当我读取（并在修改后写入）时，这些文件似乎在值中包含几个字节顺序标记（BOM）保留，主要是UTF-8 BOM。最终我将每个文本文件用作列表（或字符串），我似乎无法删除这些BOM。所以我问是否可以删除BOM？

对于更多上下文，文本文件是从用户上传自己的文档的公共ftp源下载的，因此原始编码变化很大，我不知道。为了让下载无误地运行，我将编码指定为UTF-8（使用latin-1会产生错误）。因此，对于我来说，拥有BOM并不是一个谜，而且我不认为前期编码/解码解决方案可能适合我（Convert UTF-8 with BOM to UTF-8 with no BOM in Python） - 实际上它似乎使其他BOM的频率增加。

下载后修改文件时，我使用以下语法：

with open(t, "w", encoding='utf-8') as outfile:
    with open(f, "r", encoding='utf-8') as infile:
        text = infile.read
        #Arguments to make modifications follow

之后，＆＃34; outfiles＆＃34;作为列表读入我看到一些单词具有UTF-8 BOM，如\ufeff。我尝试使用以下列表理解删除BOM：

g = list_outfile    #Outfiles now stored as list
g = [i.replace(r'\ufeff','') for i in g]

虽然这个参数会运行，但不幸的是，例如，当我打印列表时，BOM仍然存在（我相信即使我尝试从字符串而不是列表中删除BOM，我也会遇到类似的问题：How to remove this special character?）。如果我在列表推导中放入一个普通单词（非BOM），那么该单词将被替换。

我明白如果我按对象打印列表对象，BOM将不会出现（Special national characters won't .split() in Python）。 BOM不在原始文本文件中。但我担心在运行以后的文本分析参数时，这些BOM将保留，因此列表中显示为\ufeffword而不是word的任何对象都将被分析为\ufeffword。

同样，是否可以在事后删除BOM？

Answer 1

问题在于您正在替换特定字节，而您的字节顺序标记的表示可能会有所不同，具体取决于您文件的编码。实际上，使用编解码器库检查 BOM 是否存在非常简单。编解码器具有针对不同 UTF 编码的特定字节顺序标记。此外，您可以从打开的文件中自动获取编码，无需指定。假设您正在读取使用 utf-8 编码的 csv 文件，该文件可能使用也可能不使用字节顺序标记。然后你可以像这样：

import codecs

with open("testfile.csv", "r") as csvfile:
    line = csvfile.readline()
    if line.__contains__(codecs.BOM_UTF8.decode(csvfile.encoding)):
        # A Byte Order Mark is present
        line = line.strip(codecs.BOM_UTF8.decode(csvfile.encoding))
    print(line)

在上述代码的输出中，您将看到没有字节顺序标记的输出。为了进一步改进，您还可以将此检查限制为仅在文件的第一行执行（因为字节顺序标记始终位于该行，它是文件的前几个字节）。如果指示的字节顺序标记不存在，则使用 strip 而不是 replace 不会替换任何内容并且实际上不会执行任何操作。因此，您甚至可以完全跳过对字节顺序标记的手动检查，而只需对文件的整个内容运行 strip 方法：

import codecs

with open("testfile.csv", "r") as csvfile:
    with open("outfile.csv", "w") as outfile:
        outfile.write(csvfile.read().strip(codecs.BOM_UTF8.decode(csvfile.encoding)))

瞧，您最终会得到包含原始文件 (testfile.csv) 的确切内容而没有字节顺序标记的“outfile.csv”。

从列表中的对象中删除字节顺序标记

1 个答案: