SequenceFileInputFormat与MapredParquetInputFormat之间的性能

时间:2018-08-29 17:43:25

标签: apache-spark hive

我有一个正在使用Apache Spark读取的数据源。数据源的基本统计信息如下-

Serde Library - org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat - org.apache.hadoop.mapred.SequenceFileInputFormat
OutputFormat- org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

进一步探讨,我的其他数据源具有不同的格式-

org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
  

我是否有任何理由应考虑移动   SequenceFileInputFormat-> MapredParquetInputFormat吗?

会改善性能吗?

我正在对此进行测试,但是将这些数据从SequenceFileInputFormat转换为MapredParquetInputFormat似乎并不直接,而且我有许多Source属于SequenceFileInputFormat InputFormat类型。

  

所以我应该花时间将所有数据迁移到   MapredParquetInputFormat类型?

用例:

我正在使用Apache Spark读取此数据并对该数据进行一些聚合。数据量非常大,大约1亿行或更多。

0 个答案:

没有答案