存储在AWS S3中的拼花地板文件是否可拆分?

时间:2019-11-07 15:50:01

标签: amazon-web-services apache-spark amazon-s3 parquet amazon-athena

  • 我知道实木复合地板文件如果存储在块存储中是可拆分的。例如存储在HDFS上
  • 当它们存储在诸如AWS s3之类的对象存储中时,它们是否也可拆分?
  • 这使我感到困惑,因为对象存储应该是原子的。您可以访问整个文件,也可以不访问任何文件。您甚至不能在不重写整个文件的情况下更改S3文件上的元数据。另一方面,AWS建议在S3中使用可拆分文件格式,以改善hadoop生态系统中的Athena和其他框架的性能。

2 个答案:

答案 0 :(得分:2)

是的,Parquet文件是可拆分的。

S3支持定位读取(范围请求),该读取可用于仅读取输入文件(对象)的选定部分。

答案 1 :(得分:0)

我不是100%地确定您的意思,但通常(我认为)是,您在分区键上有实木复合地板分区并将列保存到行块中。当我在其中使用过AWS S3时,它的保存方式如下:

<DataGrid Name="dg" EnableRowVirtualization="False">
   ...

这可以处理您提到的拆分效率。