有没有办法,如何将this one之类的外部库添加到hdfs中? 看来pyspark需要外部库才能将它们放在hdfs的共享文件夹中。由于我使用的是shellcript,它运行带有外部库的pyspark脚本,因此无法导入它们。
请参阅有关ImportError的帖子here。
答案 0 :(得分:2)
您可以使用--py-files
选项添加外部库。您可以提供.py文件或.zip。
例如,使用spark submit:
spark-submit --master yarn --py-files ./hdfs.zip myJob.py
检查相应的文档:Submitting Applications
答案 1 :(得分:0)
我们在所有工作节点上安装了库。我们只在NameNode上使用它。