应用错误收集

时间：2017-01-06 21:18:59

标签： python hadoop nltk anaconda

我想通过Pyspark在一个hadoop集群上利用NLTK进行NLP任务。我们使用Anaconda发行版。群集处于气隙环境中，因此我无法运行nltk.download()。

我想我需要在具有互联网访问权限的辅助计算机上下载数据。我从哪里下载？我如何在hadoop集群上安装它？我只是复制文件吗？或者nltk需要知道数据的位置吗？是否需要在所有节点上复制数据？

答案 0 :(得分：1)

我从哪里下载？

您可以在计算机上执行nltk.download()，数据将下载到文件夹nltk_data下的主目录中

如何在hadoop集群上安装它？我只是复制文件吗？或者nltk需要知道数据的位置吗？

将nltk_data复制到执行进程的用户下的计算机上的主文件夹即可。如果不可能，您可以使用NLTK_DATA环境变量来设置位置。有关此内容的更多讨论，请参阅How to config nltk data directory from code?

是否需要在所有节点上复制数据？

是