我只是尝试从导入的文本文件中的每一行中删除前45个字符,然后将结果写入新的文本文件。由于某种原因,只有列表/行中的第一项被搞砸了,只删除了前42个字符。
我之前曾经多次遇到过这个问题而且从来没有弄清楚为什么会发生这种情况,可以使用一些外在的智慧!谢谢!
这是我的代码:
list1 = []
list2 = []
with codecs.open('FILE.txt', "r", encoding="utf-8") as inputfile:
list1 = [line.strip() for line in inputfile]
list1 = [x.encode('utf-8') for x in list1]
for item in list1:
list2.append(item[45:])
z = open('NEWFILE.txt', 'w');
z.write("\n".join(list2))
z.close()
答案 0 :(得分:1)
UTF-8的东西以及第一行中的3个字节的移位看起来非常像额外的BOM头。
>>> from codecs import BOM_UTF8
>>> len(BOM_UTF8)
3
大多数文本编辑器都会检测到BOM表头,并且不会直接显示(除非您使用文本编辑器)。
我建议你改变你的内循环:
for item in list1:
list2.append(item[45+len(codecs.BOM_UTF8) if item.startswith(codecs.BOM_UTF8) else 45:])
因此,如果行(第一行)以BOM标头开头,则添加3个额外字节
或者可以直接编码完整的字符串:
list1 = [(x[len(codecs.BOM_UTF8):] if x.startswith(codecs.BOM_UTF8) else x).encode('utf-8') for x in list1]
从此Q / A获取的BOM剥离代码:Python load json file with UTF-8 BOM header