如何有效地保存大熊猫。百万甚至十亿行的数据帧没有错误?

时间:2019-04-30 14:28:48

标签: python pandas csv hdf5

如何以良好的读取速度将大数据帧保存到磁盘?

我有一个大型数据集(youtube 8M),现在我已经提取了原始数据以用于dict。我想将其另存为数据框,以便通过pytorch数据集按索引读取。

具体而言,验证数据如下:

DECLARE @TruncTheDate DATETIME
SET @TruncTheDate = '2019-1-2 12:14:58.400'

SELECT DATEADD(mi, DATEDIFF(mi, 0, @TruncTheDate), 0)

以下是dtypes:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1112356 entries, 0 to 1112355
Data columns (total 4 columns):
id            1112356 non-null object
mean_rgb      1112356 non-null object
mean_audio    1112356 non-null object
label         1112356 non-null object
dtypes: object(4)
memory usage: 42.4+ MB

我想将其保存到磁盘,以便可以有效地读取它。 首先,我将id : str mean_rgb : numpy.ndarray mean_audio : numpy.ndarray label : numpy.ndarray hdf5一起使用,但得到了pd.to_hdf()

然后,我转到OverFlowError,保存成功。但是,当我从此csv读取数据时,我得到了损坏的.csv。行远远超过 1112356

最后,我用dataframedataframe保存到csvchunksize=1000行以及更混乱的内部数据的读取结果仍然是错误的。

2842137

0 个答案:

没有答案