我在Hive中有一个Parquet表(在Cloudera集群中,这是一个外部表)。当我执行 select * from table_name 命令时,它正常工作
但是当我试图查看特定列的值时,即使我将结果限制为10,我也会得到outofmemory错误。
select col_name from table_name limit 10;
java.lang.OutOfMemoryError:Java堆空间
失败:执行错误,从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码-101。 Java堆空间
真的很奇怪。我是Parquet的新手。非常感谢您对此的任何帮助。感谢
从 desc table 命令检索的Hive表的其他信息:
# Storage Information
SerDe Library: org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params:
serialization.format 1