我们计划使用Spark执行ETL处理,源数据位于S3。 ETL处理的数据量不到1亿。在这种情况下,在S3中存储数据的最佳格式是什么,即最佳压缩和文件格式(文本,序列,镶木地板等)
答案 0 :(得分:0)
ORC或Parquet用于查询,使用Snappy压缩。 Avro是另一种通用格式,但对于SparkSQL查询效率较低,因为您必须扫描更多数据。
重要在撰写本文时(2017年6月),您无法安全地将S3用作spark RDD /数据帧查询(即save()
)调用的直接目标。有关说明,请参阅Cloud Integration。写入HDFS然后复制