最糟糕的情况我想我可以实现一个生成进程等的UDF,但想知道是否有人已经这样做了。
答案 0 :(得分:2)
你可以在hiveql中使用transform,这实际上是一种做hadoop流的方法。
在hive cli类型
FILE ${env:HOME}/myscript.py; //you do not need this if your script is guaranteed to be installed on a cluster, this just adds script to cache.
SELECT TRANSFORM(someColumn) USING 'myscript.py' AS convert FROM mytable;
答案 1 :(得分:0)
我应该使用Hive的流功能(link)。这允许使用任意脚本。