Question

我编写了一个使用内部API进行解密的Hive UDF，如下所示：

public Text evaluate(String customer) {
    String result = new String();

    if (customer == null) { return null; }

    try {
        result = com.voltage.data.access.Data.decrypt(customer.toString(), "name");
    } catch (Exception e) {
        return new Text(e.getMessage());
    }

    return new Text(result);
}

，Data.decrypt执行：

public static String decrypt(String data, String type) throws Exception {
    configure();
    String FORMAT = new String();
    if (type.equals("ccn")) {
        FORMAT = "CC";
    } else if (type.equals("ssn")) {
        FORMAT = "SSN";
    }   else if (type.equals("name")) {
        FORMAT = "AlphaNumeric";
    }

    return library.FPEAccess(identity, LibraryContext.getFPE_FORMAT_CUSTOM(),String.format("formatName=%s", FORMAT),authMethod, authInfo, data);
}

其中 configure（）会创建一个非常昂贵的上下文对象。

我的问题是：Hive是否为查询返回的每一行执行一次UDF？即如果我选择了10,000行，那么evaluate方法会运行10,000次吗？

我的直觉告诉我是。如果是这样，那么这是第二个问题：

我有什么办法可以做到以下其中一项：

a）在查询首次启动时运行 configure（），然后共享上下文对象

b）而不是UDF返回一个解密的字符串，它将加密的字符串聚合到某个Set中，然后我对该集合进行批量解密？

提前致谢

Answer 1

每个JVM需要调用一次configure()，或者每个UDF类实例需要调用一次吗？

如果每个JVM一次，只需将它放在类中的静态块中，如下所示：

static {
    configure();
}

如果每个实例一次，请将其放在构造函数中：

public [class name]() {
    super();
    configure();
}

Hive UDF执行

1 个答案: