分类任务-如何处理大数据文件?

时间:2019-05-26 13:42:04

标签: python

我正计划构建一个分类模型来预测纽约出租车的票价。 CSV数据文件非常大,包含112 234 626行(约10 GB)。我已经设法将此文件下载到计算机的本地磁盘上,但是当我开始使用此文件进行解析和模型构建时,还会出现更多的内存问题。

所以,我的问题是:

1)我应该从此数据文件中获取用于任务中的最佳行数是什么?

2)我应该如何处理这些行以防止内存不足问题?

3)我应该如何获取这些行,以便包含所有月份的最佳样本?该文件包含2018年的数据,如果我采用这些行,以便仅包含预先指定的行数,则例如,数据框可能仅包含1月的数据(但我希望所有月份)。

2018 Yellow Taxi Trip Data

0 个答案:

没有答案