如何使用多个分隔符将文件加载到猪?

时间:2017-08-27 20:25:23

标签: python apache-pig hadoop-streaming

我有以下文件tax_cal我想加载猪:

  

101,5 | 2; 3 | 2

     

102,3 | 1; 4.5 | 2; 4 | 1

     

103,2 | 1; 5 | 2; 5.6 | 3

输出:

  

101,5 | 2,3 | 2

     

102,3 | 1,4.5 | 2,4 | 1

     

103,2 | 1,5 | 2,5.6 | 3

此外,我将此输出文件传递给python UDF以计算总价。

我该如何做到这一点?

1 个答案:

答案 0 :(得分:1)

因此pig的基本加载命令如下,但我不确定您的文件样本数据类型。尝试查看下面的内容,检查是否可以按照需要进行修改。

    A = LOAD '(your_file_name)' USING PigStorage(',') AS (bill_number:INT, tax:chararray);