就地文件编码

时间:2017-05-19 18:43:43

标签: python csv duplicates in-place

我正在尝试从包含大量数据的csv文件中删除重复项。删除按预期工作,但我似乎无法弄清楚如何更改inplace删除编码。谷歌搜索答案没有帮助。你们中有人有个建议吗?

这是我的代码:

seen = set()
for line in fileinput.FileInput('Dupes.csv', inplace=1):
    if line in seen: continue # skip duplicated line
    seen.add(line)
    print(line, end='') 

1 个答案:

答案 0 :(得分:1)

这个脚本对我很好。

{{1}}

这个想法是用正确的模式读取文件,然后以正确的编码通过stdout写入文件,这是通过用utf8的字节表示写入所有内容来完成的。

使用重音测试,似乎有效。