在EMR上使用Spark for ETL的S3的最佳文件格式

时间:2017-06-27 21:54:27

标签: apache-spark amazon-s3 etl

我们计划使用Spark执行ETL处理,源数据位于S3。 ETL处理的数据量不到1亿。在这种情况下,在S3中存储数据的最佳格式是什么,即最佳压缩和文件格式(文本,序列,镶木地板等)

1 个答案:

答案 0 :(得分:0)

ORC或Parquet用于查询,使用Snappy压缩。 Avro是另一种通用格式,但对于SparkSQL查询效率较低,因为您必须扫描更多数据。

重要在撰写本文时(2017年6月),您无法安全地将S3用作spark RDD /数据帧查询(即save())调用的直接目标。有关说明,请参阅Cloud Integration。写入HDFS然后复制