Pig的Avro使用方案文件失败

时间:2019-05-09 14:42:29

标签: apache-pig avro

我试图使用Avro架构,以便使用Pig脚本加载位于HDFS上的数据。数据正在加载,但是在脚本的某个阶段,使用此架构似乎会引起一些问题。

首先,我从HDFS加载数据:

%declare CURR_DATE `date '+%Y-%m-%d %H:%M:%S'`;

A = LOAD '/input/files/*avro' using AvroStorage('hdfs:///input/schema/schema.avsc');

然后,我加载一个Hive表(其他数据):

B = LOAD 'db.input_table' USING org.apache.hive.hcatalog.pig.HCatLoader();

我使用A和B进行联接:

C = JOIN A BY ROW_ID, B BY ROW_ID; 

此联接返回与数据一致的结果。但是在下一步中,我没有以下结构的数据,也没有明确的日志:

D = FOREACH C GENERATE
       TRIM(REPLACE(REPLACE((chararray)ROW_ID, '[\\n]', ' '), '[\\r]', ' ')) AS row_id,  
       '$CURR_DATE' AS dt_raff; 

STORE D INTO 'db.output_table' USING org.apache.hive.hcatalog.pig.HCatStorer();

D为空,而C中有数据。有什么想法吗?

0 个答案:

没有答案