如何使用greenplum外部表访问hadoop hdfs

时间:2012-06-04 03:28:38

标签: hadoop greenplum

oue datawarehouse基于hive,现在我们需要将数据从hive转换为greenplum,我们希望将外部表与gphdf一起使用,但它看起来出了问题。 表创建脚本是

CREATE EXTERNAL TABLE flow.http_flow_data(like flow.zb_d_gsdwal21001)
LOCATION ('gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt')
FORMAT 'TEXT' (DELIMITER '      ');

我们跑的时候

bitest=# select * from flow.http_flow_data limit 1;
ERROR:  external table http_flow_data command ended with error. sh: java: command not found  (seg12 slice1 sdw3:40000 pid=17778)
DETAIL:  Command: gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt

我们的hadoop是1.0,greenplum是4.1.2.1

我想知道我们是否需要配置一些关于make gp access hadoop

的内容

3 个答案:

答案 0 :(得分:0)

您是否打开了端口(8081)以侦听month_id = 201202目录?

答案 1 :(得分:0)

我会仔细检查管理员指南,我认为你可以使用gphdfs,但直到greenplum 4.2

答案 2 :(得分:0)

您是否检查过以确保您的Greenplum系统上安装了Java?因为这是gphdfs工作所必需的。