将Python UDF与Hive一起使用

时间:2017-02-13 22:23:29

标签: hive hiveql apache-hive

我正在尝试学习使用Python UDF和Hive。

我在这里有一个非常基本的python UDF:

import sys
for line in sys.stdin:
    line = line.strip()
    print line

然后我在Hive中添加文件:

ADD FILE /home/hadoop/test2.py;

现在我调用Hive Query:

SELECT TRANSFORM (admission_type_id, description)
USING 'python test2.py'
FROM admission_type;

这按预期工作,不对字段进行任何更改,输出按原样打印。

现在,当我通过引入split函数修改UDF时,出现执行错误。我该如何调试?我做错了什么?

新UDF:

import sys
for line in sys.stdin:
    line = line.strip()
    fields = line.split('\t') # when this line is introduced, I get an execution error
    print line

1 个答案:

答案 0 :(得分:1)

~/config/fish/functions/one.fish