在气隙环境中安装nltk数据

时间:2017-01-06 21:18:59

标签: python hadoop nltk anaconda

我想通过Pyspark在一个hadoop集群上利用NLTK进行NLP任务。我们使用Anaconda发行版。 群集处于气隙环境中,因此我无法运行nltk.download()

我想我需要在具有互联网访问权限的辅助计算机上下载数据。我从哪里下载?我如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据的位置吗?是否需要在所有节点上复制数据?

1 个答案:

答案 0 :(得分:1)

  

我从哪里下载?

您可以在计算机上执行nltk.download(),数据将下载到文件夹nltk_data下的主目录中

  

如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据的位置吗?

nltk_data复制到执行进程的用户下的计算机上的主文件夹即可。如果不可能,您可以使用NLTK_DATA环境变量来设置位置。有关此内容的更多讨论,请参阅How to config nltk data directory from code?

  

是否需要在所有节点上复制数据?