加载和合并大型csv文件python

时间:2020-06-10 12:49:36

标签: python pandas classification dask large-data

我正在尝试使用read_csv()函数以数据帧的形式在熊猫中打开10个csv文件,但是我不断收到以下错误-“ MemoryError:无法分配207。MiB为形状为(10,2718969)的数组和数据类型为int64“。

8个csv文件的大小约为1-3 KB,一个为11,819 KB,另一个为99,694 KB。这8个文件就像查找表,而99,694 KB文件是主文件。

我还必须根据一些条件将这些文件合并/合并为一个文件。 例如,99,694 KB文件(我们称之为表1)具有以下行:

enter image description here

其中一个较小的查找文件(表2)具有以下信息:

enter image description here

我试图基于表1的SId和表2的SId合并文件。我试图使用ms访问来做到这一点,并出现“溢出”错误。

还有更好的方法吗?

我能够使用Dask联接多个表,但是问题是主文件有超过200万行。我尝试使用df.head(1)仅查看最终组合文件的第一行,而Dask抛出了MemoryError。我尝试将其另存为csv,然后再次出现MemoryError。

我正在尝试使用此数据集执行一些EDA并希望进行分类,但我认为我无法使用此大型数据集来实现此目的。

在这种情况下,对数据进行EDA和ML采样更好吗?还是有更好的方法?

0 个答案:

没有答案