应用错误收集

时间：2014-09-12 09:26:13

标签： python hadoop nlp apache-spark textblob

我正在使用pyspark进行NLP处理等。我正在使用TextBlob Python库。

通常，在独立模式下，可以轻松安装外部Python库。在集群模式下，我遇到了在远程工作节点上安装这些库的问题。我无法访问每个工作机器以在Python路径中安装这些库。

我尝试使用Sparkcontext pyfiles选项来发送.zip个文件......但问题是这些Python包需要安装在工作机上。

是否有不同的方法可以使这个lib-Textblob在Python路径中可用？

答案 0 :(得分：1)

我尝试使用Sparkcontext pyfiles选项来发送.zip文件......但问题是需要在工作机上安装这些Python包。

我猜您使用defautl URL架构（本地:) local： - 以local：/开头的URI应该作为每个工作节点上的本地文件存在。这意味着不会产生任何网络IO，并且适用于推送给每个工作者或通过NFS，GlusterFS等共享的大型文件/ JAR

另一个URL架构是文件：，每个执行器自动从驱动程序HTTP服务器中提取文件，然后您不需要在工作机上安装它们。 file： - 绝对路径和文件：/ URI由驱动程序的HTTP文件服务器提供，每个执行程序从驱动程序HTTP服务器提取文件。