我有一个大于5G的大CSV文件,因此我尝试按以下代码加载文件的一部分。
import pandas as pd
reader = pd.read_csv('/path/to/csv', chunksize=10000, error_bad_lines=True, iterator=True)
for chunk in reader:
with open('/path/to/save', 'a') as chunk_file:
chunk.to_csv(chunk_file)
我看到了一些警告,例如:
Skipping line 8245: expected 1728 fields, saw 1729
我以为保存的文件将没有脏数据,但该文件仍然存在一些错误的数据列。
我已经设置了error_bad_lines,我不知道为什么会这样?