如何将外部python库添加到HDFS中?

时间:2017-07-28 10:40:54

标签: python hadoop apache-spark hdfs

有没有办法,如何将this one之类的外部库添加到hdfs中? 看来pyspark需要外部库才能将它们放在hdfs的共享文件夹中。由于我使用的是shellcript,它运行带有外部库的pyspark脚本,因此无法导入它们。

请参阅有关ImportError的帖子here

2 个答案:

答案 0 :(得分:2)

您可以使用--py-files选项添加外部库。您可以提供.py文件或.zip。

例如,使用spark submit:

spark-submit --master yarn --py-files ./hdfs.zip myJob.py

检查相应的文档:Submitting Applications

答案 1 :(得分:0)

我们在所有工作节点上安装了库。我们只在NameNode上使用它。