在Pyspark-Cluster模式下在工作节点上安装外部库

时间:2014-09-12 09:26:13

标签: python hadoop nlp apache-spark textblob

我正在使用pyspark进行NLP处理等。我正在使用TextBlob Python库。

通常,在独立模式下,可以轻松安装外部Python库。在集群模式下,我遇到了在远程工作节点上安装这些库的问题。我无法访问每个工作机器以在Python路径中安装这些库。

我尝试使用Sparkcontext pyfiles选项来发送.zip个文件......但问题是这些Python包需要安装在工作机上。

是否有不同的方法可以使这个lib-Textblob在Python路径中可用?

1 个答案:

答案 0 :(得分:1)

  

我尝试使用Sparkcontext pyfiles选项来发送.zip文件......但问题是需要在工作机上安装这些Python包。

我猜您使用defautl URL架构(本地:) local: - 以local:/开头的URI应该作为每个工作节点上的本地文件存在。这意味着不会产生任何网络IO,并且适用于推送给每个工作者或通过NFS,GlusterFS等共享的大型文件/ JAR

另一个URL架构是文件:,每个执行器自动从驱动程序HTTP服务器中提取文件,然后您不需要在工作机上安装它们。 file: - 绝对路径和文件:/ URI由驱动程序的HTTP文件服务器提供,每个执行程序从驱动程序HTTP服务器提取文件。

请参考 Submitting Applications - Advanced Dependency Management