Hive / Tez作业无法启动

时间:2016-02-20 18:49:42

标签: hadoop hive hiveql hortonworks-data-platform tez

我正在尝试通过从HDFS中的文本文件导入来在Hive中创建ORC table我尝试了多种不同的方式,在线搜索以获取帮助,并且无论插入作业是否获胜不要开始。

我可以将文本文件发送到HDFS,我可以将文本文件读取到Hive,但 我无法将其转换为ORC。

我尝试了很多不同的变体,包括可用作此问题参考的变体:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_dataintegration/content/moving_data_from_hdfs_to_hive_external_table_method.html

我有一个单节点HDP集群(用于开发) - 版本:

HDP-2.3.2.0

(2.3.2.0-2950)

以下是相关的服务版本:

服务版本状态说明

HDFS 2.7.1.2.3已安装的Apache Hadoop分布式文件系统

MapReduce2 2.7.1.2.3已安装的Apache Hadoop NextGen MapReduce(YARN)

YARN 2.7.1.2.3已安装的Apache Hadoop NextGen MapReduce(YARN)

Tez 0.7.0.2.3已安装Tez是在YARN之上编写的下一代Hadoop查询处理框架。

Hive 1.2.1.2.3用于临时查询的安装数据仓库系统&分析大数据集和表格&存储管理服务

当我运行这样的SQL时会发生什么(再次,我尝试了许多变体,包括直接来自在线教程):

  

INSERT OVERWRITE TABLE mycars SELECT * FROM cars;

我的工作是这样的:

申请总数(申请类型:[]和州:

[提交,接受,运行]):1

Application-Id      Application-Name        Application-Type          User       Queue               State         Final-State         Progress                        Tracking-URL

application_1455989658079_0002  HIVE-3f41161c-b806-4e7d-974e-c18e028d683f                    TEZ          hive   root.hive            ACCEPTED           UNDEFINED               0%                                 N/A

它只是挂在那里。 (从字面上看,我已经尝试了一个 20行样本表并让它运行几个小时才能杀死它。)

我绝不是Hadoop专家(还),我相信这可能是配置问题,但我一直无法弄明白。

我尝试过的所有其他Hive操作,例如创建删除表,将文件加载到文本表,选择,所有工作正常。就在我创建一个ORC表时,它就是这样做的。我需要一个ORC表来满足我的要求。

任何建议都会有所帮助。

1 个答案:

答案 0 :(得分:0)

大多数情况下,这与提高纱线调度能力有关,但是如果您的资源已受限制,则还可以通过调整TEZ配置中的以下属性来减少单个TEZ任务请求的内存量:

task.resource.memory.mb

为了增加群集的容量,您可以在YARN的配置设置中进行操作,也可以直接通过Ambari或Cloudera Manager进行操作

enter image description here

为了监视幕后发生的事情,您可以运行Yarn Resource Manager UI并检查特定应用程序的诊断选项卡,其中有关于资源分配的有用的显式消息,尤其是当作业被接受并保持挂起状态时。

enter image description here