蜂巢中的python udf

时间:2014-11-17 18:27:35

标签: java python sql hadoop hive

我想在python中编写hive udf来解析name列(使用https://pypi.python.org/pypi/nameparser)并将解析后的值放在表的不同列中(title,first,middle,last,suffix,nickname)。

我是python的新手,我写了像这样的python代码

#!/usr/bin/python
import sys
from nameparser import HumanName
name = HumanName(name)
return name.title

在蜂巢中,我正在这样做

add file title.py;
SELECT TRANSFORM (name) using 'title.py' AS (title STRING) from emp2;

但是我正在收到org.apache.hadoop.hive.ql.metadata.HiveException。

1 个答案:

答案 0 :(得分:0)

在select statement using子句中,您需要指定' python title.py'而不是title.py。

add file title.py;
SELECT TRANSFORM (name) using 'python title.py' AS (title STRING) from emp2;