我正在尝试通过文档中提到的这些命令安装nltk语料库 -
-e '{"packages":["a_a","b"]}'
但是,我是从我的愚蠢组织那里阻止了github,这是上面的下载功能试图连接到的。
我是否可以尝试使用nltk数据的备用存储库?试图将github和相关网站列入白名单只会纠缠在繁文缛节中。
谢谢
答案 0 :(得分:1)
You can try downloading the Arch Linux package for nltk, which contains all the files you need.
usr/share/nltk_data
.nltk_data
folder to the appropriate path on your machine.答案 1 :(得分:0)
有一段时间GitHub实际上阻止了nltk_data
的所有提取,导致issue 1787仍然打开并包含许多变通方法,并且计划避免依赖GitHub托管。
目前的“官方”answer是:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
答案 2 :(得分:0)
由于issue 1787,我开始在openSUSE Build Service(OBS)存储库home:jayvdb:nltk_data中构建RPM。
例如,对于punkt
数据,.spec
文件为here。复制其他数据包非常容易。
从Fedora Rawhide上的OBS安装:
dnf config-manager --add-repo http://download.opensuse.org/repositories/home:jayvdb:nltk_data/Fedora_Rawhide/home:jayvdb:nltk_data.repo
dnf install nltk-data-punkt
OBS download page提供了更多下载说明。
答案 3 :(得分:0)
nltk数据的布局非常简单。在有权访问github的计算机上运行nltk.download()
,下载您感兴趣的资源(如果您还不知道,我推荐" book"捆绑),然后找到生成nltk_data
文件夹,只需将层次结构复制到nltk可以找到它的位置的工作计算机。 (例如,查看下载程序尝试安装的位置)。