将CSV转换为在熊猫中将行切成薄片的

时间:2018-09-06 19:03:35

标签: python pandas feather

我正在处理CSV格式的巨大数据集(5,000万行)。我试图对其进行切片并将其另存为“羽毛格式”,以便在稍后加载羽毛格式时节省一些内存。

作为一种解决方法,我将数据分块加载为CSV文件,然后将其合并到一个数据框中。

这是我到目前为止尝试过的:

df[2000000:4000000].to_feather('name')

我遇到以下错误:

ValueError: feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)

然后我尝试重置索引,但仍然出现相同的错误。

2 个答案:

答案 0 :(得分:1)

试试 .loc :

df.loc[2000000:4000000].reset_index().to_feather("./myfeather.ftr")

您必须重置索引才能将 datataframe 保存为羽化格式。对我有用。

答案 1 :(得分:-1)

将数据切片保存到csv df.to_csv(),再次从csv加载数据,然后保存为羽毛格式。这种方法对我有用