使用pig脚本为没有分隔符的记录标记字段

时间:2016-07-24 14:46:17

标签: hadoop apache-pig

我在原始文件中有字段C1C2C3C4(没有分隔符),我必须生成看起来像C1,C2,C3,C4的输出。使用PIG脚本。 给定: - C1的大小= C2 = C3 = C4 = 4字节。

2 个答案:

答案 0 :(得分:1)

通过以下步骤,这应该是直截了当的:

  1. 按原样加载数据
  2. 使用SUBSTRING函数
  3. 生成四个新列

    例如,您应该能够将c2提取为:

    SUBSTRING(inputstring, 5, 8)
    

答案 1 :(得分:0)

延长丹尼斯的答案。 假设该字段存储为chararray

A = LOAD 'data.txt' as (f1:chararray);
B = FOREACH A GENERATE 
         SUBSTRING(f1,0,2) as A1,
         SUBSTRING(f1,2,4) as A2,
         SUBSTRING(f1,4,6) as A3,
         SUBSTRING(f1,6,8) as A4;
DUMP B;