apache-spark - 在EMR上使用Spark for ETL的S3的最佳文件格式 - Thinbug

在EMR上使用Spark for ETL的S3的最佳文件格式

时间：2017-06-27 21:54:27

标签： apache-spark amazon-s3 etl

我们计划使用Spark执行ETL处理，源数据位于S3。 ETL处理的数据量不到1亿。在这种情况下，在S3中存储数据的最佳格式是什么，即最佳压缩和文件格式（文本，序列，镶木地板等）

1 个答案:

答案 0 :(得分：0)

ORC或Parquet用于查询，使用Snappy压缩。 Avro是另一种通用格式，但对于SparkSQL查询效率较低，因为您必须扫描更多数据。

重要在撰写本文时（2017年6月），您无法安全地将S3用作spark RDD /数据帧查询（即save()）调用的直接目标。有关说明，请参阅Cloud Integration。写入HDFS然后复制