我知道如何使用transform
和using
创建配置单元udf,但我不能使用sklearn
,因为并非hive集群中的所有节点都有sklearn
。
我有anaconda2.tar.gz
sklearn
,我该怎么办?
答案 0 :(得分:0)
我最近开始研究这种方法,我觉得问题不在于获得所有的蜂巢节点。对他们进行了sklearn(如上所述),我觉得这是一个兼容性问题而不是' sklearn节点可用性'一。我认为sklearn(尚未)设计为以并行算法运行,以便可以在短时间内处理大量数据。
作为一种方法,我尝试做的就是将python传递给“hive”'通过' pyhive' (例如)并在该代码中实现必要的sklearn库/调用。这里粗略假设这个' sklearn-hive-python'代码将在每个节点中运行,并在' map-reduce'处理数据。水平。 我不能说这是正确的解决方案或正确的方法(但)这是我在搜索一段时间后可以得出的结论。