使用虚拟环境使用python脚本进行hive流式传输

时间:2015-06-12 17:55:00

标签: python hive

我正在尝试使用python脚本使用hive流。我想使用未安装在工作节点上的python模块。所以我尝试添加虚拟环境并在其中安装我需要的模块。我按照这篇博文中的过程进行了操作 http://blog.iamghost.kr/post/91329784133/hive-python-virtualenv

(找不到英文参考) 但是,对于我在virtualenv中安装的任何模块,我得到一个ImportError,例如 ImportError:没有名为lxml的模块

在本地使用虚拟环境,我可以很好地导入软件包。

任何想法如何解决这个问题?

我使用的shell脚本

#!/bin/bash
cd ./venv_package
source venv/bin/activate
python pyscript.py

转换中使用的Python脚本

import sys
from lxml import html

for line in sys.stdin:
    line = line.strip('\n')
    row = line.split('\t')
    cleaned_html_0 = html.fromstring(row[0]).text_content()
    cleaned_html_1 = html.fromstring(row[1]).text_content()

    print '\t'.join([cleaned_html_0, cleaned_html_1])

目录结构

venv_package >ls
pyscript.py venv

0 个答案:

没有答案