标签: hadoop hive user-defined-functions
我有一个场景,我将逐行传递给hive UDF并需要对每一行执行一些验证。
使用一些每个定义的元数据执行这些验证,我需要从外部资源加载这些元数据。
我的问题是,这个元数据只能在init中加载一次并将其应用于所有行。作为加载,每次每行的元数据都会大大降低性能。
答案 0 :(得分:0)
除非这些元数据发生很大变化,否则我认为最好的办法就是将元数据保存在HDFS中。在构造函数中读取它,然后除了映射器启动之外你不必读它。