如何以良好的读取速度将大数据帧保存到磁盘?
我有一个大型数据集(youtube 8M),现在我已经提取了原始数据以用于dict。我想将其另存为数据框,以便通过pytorch数据集按索引读取。
具体而言,验证数据如下:
DECLARE @TruncTheDate DATETIME
SET @TruncTheDate = '2019-1-2 12:14:58.400'
SELECT DATEADD(mi, DATEDIFF(mi, 0, @TruncTheDate), 0)
以下是dtypes:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1112356 entries, 0 to 1112355
Data columns (total 4 columns):
id 1112356 non-null object
mean_rgb 1112356 non-null object
mean_audio 1112356 non-null object
label 1112356 non-null object
dtypes: object(4)
memory usage: 42.4+ MB
我想将其保存到磁盘,以便可以有效地读取它。
首先,我将id : str
mean_rgb : numpy.ndarray
mean_audio : numpy.ndarray
label : numpy.ndarray
与hdf5
一起使用,但得到了pd.to_hdf()
。
然后,我转到OverFlowError
,保存成功。但是,当我从此csv
读取数据时,我得到了损坏的.csv
。行远远超过 1112356 。
最后,我用dataframe
将dataframe
保存到csv
,chunksize=1000
行以及更混乱的内部数据的读取结果仍然是错误的。
2842137