应用错误收集

我最近开始研究这种方法，我觉得问题不在于获得所有的蜂巢节点。对他们进行了sklearn（如上所述），我觉得这是一个兼容性问题而不是＆＃39; sklearn节点可用性＆＃39;一。我认为sklearn（尚未）设计为以并行算法运行，以便可以在短时间内处理大量数据。

作为一种方法，我尝试做的就是将python传递给“hive”＆＃39;通过＆＃39; pyhive＆＃39; （例如）并在该代码中实现必要的sklearn库/调用。这里粗略假设这个＆＃39; sklearn-hive-python＆＃39;代码将在每个节点中运行，并在＆＃39; map-reduce＆＃39;处理数据。水平。我不能说这是正确的解决方案或正确的方法（但）这是我在搜索一段时间后可以得出的结论。

如何使用python和第三方软件包如sklearn为hive创建一个udf？

1 个答案: