我的数据集超过1,000,000行。
但是,read_csv
无法全部阅读。
products = pd.read_csv("PAD_NEW.csv", encoding = "ISO-8859-1", error_bad_lines=False)
products.shape
(859971, 137)
但在使用fread
的情况下,我可以获得1048575
> dim(products)
[1] 1048575 137
我首先尝试使用R读取然后为Python编写新文件。但它没有用。
更新:我手动检查那些被忽略的行,有一个名为description
的列,有一些句子,如"新产品,下周"我认为python采用","在这一栏中作为一个单独的。因为删除此列后它才有效。