我正在尝试从包含大量数据的csv文件中删除重复项。删除按预期工作,但我似乎无法弄清楚如何更改inplace删除编码。谷歌搜索答案没有帮助。你们中有人有个建议吗?
这是我的代码:
seen = set()
for line in fileinput.FileInput('Dupes.csv', inplace=1):
if line in seen: continue # skip duplicated line
seen.add(line)
print(line, end='')
答案 0 :(得分:1)
这个脚本对我很好。
{{1}}
这个想法是用正确的模式读取文件,然后以正确的编码通过stdout写入文件,这是通过用utf8的字节表示写入所有内容来完成的。
使用重音测试,似乎有效。