标签: hadoop mapreduce bigdata avro
为什么MapReduce处理Avro文件比处理平面文件慢?
我预计处理Avro文件会比处理平面文件快得多,但我的假设是错误的。
Avro输出将附带结果附加结果,所以我认为这是为什么它很慢,因为它必须将列名+数据写入HDFS。但事实并非如此,因为我尝试禁用写入HDFS,但性能没有提高。
当我删除大部分Avro Class,例如AvroKey,AvroValue时,我可以看到性能提升。
这是预期还是其他什么问题?