如何使用python和第三方软件包如sklearn为hive创建一个udf?

时间:2017-03-21 12:26:39

标签: python hive package udf

我知道如何使用transformusing创建配置单元udf,但我不能使用sklearn,因为并非hive集群中的所有节点都有sklearn
我有anaconda2.tar.gz sklearn,我该怎么办?

1 个答案:

答案 0 :(得分:0)

我最近开始研究这种方法,我觉得问题不在于获得所有的蜂巢节点。对他们进行了sklearn(如上所述),我觉得这是一个兼容性问题而不是' sklearn节点可用性'一。我认为sklearn(尚未)设计为以并行算法运行,以便可以在短时间内处理大量数据。

作为一种方法,我尝试做的就是将python传递给“hive”'通过' pyhive' (例如)并在该代码中实现必要的sklearn库/调用。这里粗略假设这个' sklearn-hive-python'代码将在每个节点中运行,并在' map-reduce'处理数据。水平。 我不能说这是正确的解决方案或正确的方法(但)这是我在搜索一段时间后可以得出的结论。