Question

我在Hive中有一个Parquet表（在Cloudera集群中，这是一个外部表）。当我执行 select * from table_name 命令时，它正常工作

但是当我试图查看特定列的值时，即使我将结果限制为10，我也会得到outofmemory错误。

select col_name from table_name limit 10;

java.lang.OutOfMemoryError：Java堆空间

失败：执行错误，从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码-101。   Java堆空间

真的很奇怪。我是Parquet的新手。非常感谢您对此的任何帮助。感谢

从 desc table 命令检索的Hive表的其他信息：

# Storage Information        
SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe  
InputFormat:            org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat    
OutputFormat:           org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    serialization.format    1

Hive Parquet表简单选择命令以错误结束

0 个答案: