Question

如何以良好的读取速度将大数据帧保存到磁盘？

我有一个大型数据集（youtube 8M），现在我已经提取了原始数据以用于dict。我想将其另存为数据框，以便通过pytorch数据集按索引读取。

具体而言，验证数据如下：

DECLARE @TruncTheDate DATETIME
SET @TruncTheDate = '2019-1-2 12:14:58.400'

SELECT DATEADD(mi, DATEDIFF(mi, 0, @TruncTheDate), 0)

以下是dtypes：

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1112356 entries, 0 to 1112355
Data columns (total 4 columns):
id            1112356 non-null object
mean_rgb      1112356 non-null object
mean_audio    1112356 non-null object
label         1112356 non-null object
dtypes: object(4)
memory usage: 42.4+ MB

我想将其保存到磁盘，以便可以有效地读取它。首先，我将id : str mean_rgb : numpy.ndarray mean_audio : numpy.ndarray label : numpy.ndarray与hdf5一起使用，但得到了pd.to_hdf()。

然后，我转到OverFlowError，保存成功。但是，当我从此csv读取数据时，我得到了损坏的.csv。行远远超过 1112356 。

最后，我用dataframe将dataframe保存到csv，chunksize=1000行以及更混乱的内部数据的读取结果仍然是错误的。

如何有效地保存大熊猫。百万甚至十亿行的数据帧没有错误？

0 个答案: