从S3存储桶读取熊猫数据的最快选择?

时间:2020-02-18 06:02:29

标签: python pandas amazon-web-services amazon-s3

我的CSV数据集约为400 mb,在我的本地系统中,我尝试了几种数据格式以实现最快的读取速度。按日期划分的实木复合地板格式最合适。 但是当我转移到S3存储桶时,花了很长时间才使用aws数据争吵器读取同一文件。

作为AWS世界的新手,我需要知道什么是实现最快运行时间的最佳方法。 鉴于:

我将日期作为功能之一,可以将其用于分区。读完之后,我还需要它作为熊猫数据框

1 个答案:

答案 0 :(得分:1)

有一种称为羽毛的格式,它可能会帮助您。

此处有更多详细信息-link

enter image description here