我正在处理已被Excel中的其他人篡改的CSV文件,因此在文件末尾包含额外的逗号(分隔符)中间文件和不完整的行。
当然,Pandas / Python的CSV阅读器无法处理这些文件。
我想知道是否有人知道已经存在的解决方案来解决这些恼人的功能。我非常感谢从头开始编写解决方案的非平凡建议。
举例说明:
CSV file contents:
header1, header2
1,1
2,3
5,8,,
1
1
答案 0 :(得分:0)
def preprocess(filename):
with open(filename, 'r', encoding="utf-8") as csvfile:
for line in csvfile.readlines[1:]:
if ',' in line:
yield list(map(int, line.split(',')[0:2]))