我在Python中编写MapReduce作业,并希望使用像chardet
这样的第三个库。
我知道我们可以使用选项-libjars=...
将它们包含在java MapReduce中。
但是如何在Python MapReduce Job中包含第三方库?
谢谢!
答案 0 :(得分:1)
问题已由zipimport
解决。
然后我将chardet
压缩到文件module.mod
,然后像这样使用:
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
在hadoop流命令中添加-file module.mod
。
现在可以在脚本中使用chardet
。
更多详细信息显示在:How can I include a python package with Hadoop streaming job?