我有一个rules_table数据
1,c1,c1
2,c2,c3
3,c4,c4
rules_table包含left_table和right_table的列名,以提供有关连接键的提示。
架构:c1,c2,c3,c4,c5,c6,c7,c8,c9
架构:c1,c2,c3,c4,c10,c12,c13,c14
我需要根据rules_table逐个应用规则加入left_table和right_table(它应该是顺序的,因为rule_id是规则优先级)。在每个规则之后,我需要获得matched_set和unmatched_set。 Unmatched_Set数据必须流入下一个规则并继续进行。最终输出将有2个单独的数据集
现在我正在使用 unix_script 来读取配置单元中的规则表并重复调用pig脚本以生成 matched_set 和 unmatched_set 。但由于 pig初始set_up 和商店花费了太多时间,因此花费了太多时间。
任何正文都可以建议一个最佳的解决方案,只需执行一次就可以在pig_script中执行此操作吗?
答案 0 :(得分:0)
你不能直接做,但是你可以生成看起来像这样的猪单脚本:
globstar
最后你可以做联合匹配。