忽略尾随逗号mid文件,忽略尾随不完整的行

时间:2017-06-08 08:11:56

标签: python excel csv parsing

我正在处理已被Excel中的其他人篡改的CSV文件,因此在文件末尾包含额外的逗号(分隔符)中间文件和不完整的行。

当然,Pandas / Python的CSV阅读器无法处理这些文件。

我想知道是否有人知道已经存在的解决方案来解决这些恼人的功能。我非常感谢从头开始编写解决方案的非平凡建议。

举例说明:

CSV file contents:

header1, header2
1,1
2,3
5,8,,
1
1

1 个答案:

答案 0 :(得分:0)

def preprocess(filename):
    with open(filename, 'r', encoding="utf-8") as csvfile:    
        for line in csvfile.readlines[1:]:
            if ',' in line:
                yield list(map(int, line.split(',')[0:2]))