Question

我有一个正在使用Apache Spark读取的数据源。数据源的基本统计信息如下-

Serde Library - org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat - org.apache.hadoop.mapred.SequenceFileInputFormat
OutputFormat- org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

进一步探讨，我的其他数据源具有不同的格式-

org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

我是否有任何理由应考虑移动 SequenceFileInputFormat-> MapredParquetInputFormat吗？

会改善性能吗？

我正在对此进行测试，但是将这些数据从SequenceFileInputFormat转换为MapredParquetInputFormat似乎并不直接，而且我有许多Source属于SequenceFileInputFormat InputFormat类型。

所以我应该花时间将所有数据迁移到 MapredParquetInputFormat类型？

用例：

我正在使用Apache Spark读取此数据并对该数据进行一些聚合。数据量非常大，大约1亿行或更多。

SequenceFileInputFormat与MapredParquetInputFormat之间的性能

0 个答案: