标签: python pandas amazon-web-services amazon-s3
我的CSV数据集约为400 mb,在我的本地系统中,我尝试了几种数据格式以实现最快的读取速度。按日期划分的实木复合地板格式最合适。 但是当我转移到S3存储桶时,花了很长时间才使用aws数据争吵器读取同一文件。
作为AWS世界的新手,我需要知道什么是实现最快运行时间的最佳方法。 鉴于:
我将日期作为功能之一,可以将其用于分区。读完之后,我还需要它作为熊猫数据框。
答案 0 :(得分:1)
有一种称为羽毛的格式,它可能会帮助您。
此处有更多详细信息-link