我试图使用Avro架构,以便使用Pig脚本加载位于HDFS上的数据。数据正在加载,但是在脚本的某个阶段,使用此架构似乎会引起一些问题。
首先,我从HDFS加载数据:
%declare CURR_DATE `date '+%Y-%m-%d %H:%M:%S'`;
A = LOAD '/input/files/*avro' using AvroStorage('hdfs:///input/schema/schema.avsc');
然后,我加载一个Hive表(其他数据):
B = LOAD 'db.input_table' USING org.apache.hive.hcatalog.pig.HCatLoader();
我使用A和B进行联接:
C = JOIN A BY ROW_ID, B BY ROW_ID;
此联接返回与数据一致的结果。但是在下一步中,我没有以下结构的数据,也没有明确的日志:
D = FOREACH C GENERATE
TRIM(REPLACE(REPLACE((chararray)ROW_ID, '[\\n]', ' '), '[\\r]', ' ')) AS row_id,
'$CURR_DATE' AS dt_raff;
STORE D INTO 'db.output_table' USING org.apache.hive.hcatalog.pig.HCatStorer();
D为空,而C中有数据。有什么想法吗?