除了使用Jython之外,在Hive UDF中使用Python的最简单方法是什么?

时间:2013-04-27 12:15:52

标签: python hive

最糟糕的情况我想我可以实现一个生成进程等的UDF,但想知道是否有人已经这样做了。

2 个答案:

答案 0 :(得分:2)

你可以在hiveql中使用transform,这实际上是一种做hadoop流的方法。

在hive cli类型

FILE ${env:HOME}/myscript.py; //you do not need this if your script is guaranteed to be installed on a cluster, this just adds script to cache.

SELECT TRANSFORM(someColumn) USING 'myscript.py' AS convert FROM mytable;

答案 1 :(得分:0)

我应该使用Hive的流功能(link)。这允许使用任意脚本。