Pig Python UDF和lxml

时间:2014-05-08 18:25:21

标签: python hadoop apache-pig lxml

我有一个使用lxml的Python UDF。使用UDF的My Pig作业失败:

File "PigParse.py", line 10, in ParseToPig ImportError: No module named lxml

Python脚本作为独立程序运行良好,其第10行是:

from lxml import etree 

我是否需要以某种方式将lxml分发给hadoop集群,如果是这样,我应该使用的版本和版本?

我见过使用分发nltk的例子     Hadoop -file 但猪没什么。

TIA !!!

1 个答案:

答案 0 :(得分:0)

我认为我的问题是因为我使用的是Jython:

`REGISTER 'PigParse.py' using jython as PP;

you can't use lxml with Jython