我有一个正在使用Apache Spark读取的数据源。数据源的基本统计信息如下-
Serde Library - org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat - org.apache.hadoop.mapred.SequenceFileInputFormat
OutputFormat- org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
进一步探讨,我的其他数据源具有不同的格式-
org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
我是否有任何理由应考虑移动 SequenceFileInputFormat-> MapredParquetInputFormat吗?
会改善性能吗?
我正在对此进行测试,但是将这些数据从SequenceFileInputFormat转换为MapredParquetInputFormat似乎并不直接,而且我有许多Source属于SequenceFileInputFormat InputFormat类型。
所以我应该花时间将所有数据迁移到 MapredParquetInputFormat类型?
用例:
我正在使用Apache Spark读取此数据并对该数据进行一些聚合。数据量非常大,大约1亿行或更多。