我正在使用pyspark进行NLP处理等。我正在使用TextBlob Python库。
通常,在独立模式下,可以轻松安装外部Python库。在集群模式下,我遇到了在远程工作节点上安装这些库的问题。我无法访问每个工作机器以在Python路径中安装这些库。
我尝试使用Sparkcontext pyfiles选项来发送.zip
个文件......但问题是这些Python包需要安装在工作机上。
是否有不同的方法可以使这个lib-Textblob在Python路径中可用?
答案 0 :(得分:1)
我尝试使用Sparkcontext pyfiles选项来发送.zip文件......但问题是需要在工作机上安装这些Python包。
我猜您使用defautl URL架构(本地:) local: - 以local:/开头的URI应该作为每个工作节点上的本地文件存在。这意味着不会产生任何网络IO,并且适用于推送给每个工作者或通过NFS,GlusterFS等共享的大型文件/ JAR
另一个URL架构是文件:,每个执行器自动从驱动程序HTTP服务器中提取文件,然后您不需要在工作机上安装它们。 file: - 绝对路径和文件:/ URI由驱动程序的HTTP文件服务器提供,每个执行程序从驱动程序HTTP服务器提取文件。
请参考 Submitting Applications - Advanced Dependency Management