我想通过Pyspark在一个hadoop集群上利用NLTK进行NLP任务。我们使用Anaconda发行版。
群集处于气隙环境中,因此我无法运行nltk.download()
。
我想我需要在具有互联网访问权限的辅助计算机上下载数据。我从哪里下载?我如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据的位置吗?是否需要在所有节点上复制数据?
答案 0 :(得分:1)
我从哪里下载?
您可以在计算机上执行nltk.download()
,数据将下载到文件夹nltk_data
下的主目录中
如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据的位置吗?
将nltk_data
复制到执行进程的用户下的计算机上的主文件夹即可。如果不可能,您可以使用NLTK_DATA
环境变量来设置位置。有关此内容的更多讨论,请参阅How to config nltk data directory from code?
是否需要在所有节点上复制数据?
是