基于规则的加入猪脚本

时间:2016-04-13 04:19:47

标签: apache-pig

我有一个rules_table数据

Ruleid,leftColumn,rightColumn

1,c1,c1
2,c2,c3
3,c4,c4

rules_table包含left_table和right_table的列名,以提供有关连接键的提示。

Left_table

架构:c1,c2,c3,c4,c5,c6,c7,c8,c9

Right_table

架构:c1,c2,c3,c4,c10,c12,c13,c14

我需要根据rules_table逐个应用规则加入left_table和right_table(它应该是顺序的,因为rule_id是规则优先级)。在每个规则之后,我需要获得matched_set和unmatched_set。 Unmatched_Set数据必须流入下一个规则并继续进行。最终输出将有2个单独的数据集

  • matched_set,RULE_ID
  • unmatched_set

现在我正在使用 unix_script 来读取配置单元中的规则表并重复调用pig脚本以生成 matched_set unmatched_set 。但由于 pig初始set_up 商店花费了太多时间,因此花费了太多时间。

任何正文都可以建议一个最佳的解决方案,只需执行一次就可以在pig_script中执行此操作吗?

1 个答案:

答案 0 :(得分:0)

你不能直接做,但是你可以生成看起来像这样的猪单脚本:

globstar

最后你可以做联合匹配。