通过通用UDF Hive保存状态

时间:2014-10-07 17:23:46

标签: hadoop hive user-defined-functions

我有一个场景,我将逐行传递给hive UDF并需要对每一行执行一些验证。

使用一些每个定义的元数据执行这些验证,我需要从外部资源加载这些元数据。

我的问题是,这个元数据只能在init中加载一次并将其应用于所有行。作为加载,每次每行的元数据都会大大降低性能。

1 个答案:

答案 0 :(得分:0)

除非这些元数据发生很大变化,否则我认为最好的办法就是将元数据保存在HDFS中。在构造函数中读取它,然后除了映射器启动之外你不必读它。