我正在尝试使用python脚本使用hive流。我想使用未安装在工作节点上的python模块。所以我尝试添加虚拟环境并在其中安装我需要的模块。我按照这篇博文中的过程进行了操作 http://blog.iamghost.kr/post/91329784133/hive-python-virtualenv
(找不到英文参考) 但是,对于我在virtualenv中安装的任何模块,我得到一个ImportError,例如 ImportError:没有名为lxml的模块
在本地使用虚拟环境,我可以很好地导入软件包。
任何想法如何解决这个问题?
我使用的shell脚本
#!/bin/bash
cd ./venv_package
source venv/bin/activate
python pyscript.py
转换中使用的Python脚本
import sys
from lxml import html
for line in sys.stdin:
line = line.strip('\n')
row = line.split('\t')
cleaned_html_0 = html.fromstring(row[0]).text_content()
cleaned_html_1 = html.fromstring(row[1]).text_content()
print '\t'.join([cleaned_html_0, cleaned_html_1])
目录结构
venv_package >ls
pyscript.py venv