nltk数据的替代来源

时间:2017-08-04 10:49:23

标签: python-3.x nltk

我正在尝试通过文档中提到的这些命令安装nltk语料库 -

-e '{"packages":["a_a","b"]}'

但是,我是从我的愚蠢组织那里阻止了github,这是上面的下载功能试图连接到的。

我是否可以尝试使用nltk数据的备用存储库?试图将github和相关网站列入白名单只会纠缠在繁文缛节中。

谢谢

4 个答案:

答案 0 :(得分:1)

You can try downloading the Arch Linux package for nltk, which contains all the files you need.

  1. Download the package from Archlinux packages website, using the Download from Mirror link in the Package Actions box on the right, or you can just use this link.
  2. Extract the file (it is an xzipped tar archive). I used ark on linux, not sure what is the appropriate software for your system (on windows 7zip and winrar should be able to handle this).
  3. You find the files in the folder usr/share/nltk_data.
  4. Move the nltk_data folder to the appropriate path on your machine.

答案 1 :(得分:0)

有一段时间GitHub实际上阻止了nltk_data的所有提取,导致issue 1787仍然打开并包含许多变通方法,并且计划避免依赖GitHub托管。

目前的“官方”answer是:

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

答案 2 :(得分:0)

由于issue 1787,我开始在openSUSE Build Service(OBS)存储库home:jayvdb:nltk_data中构建RPM。

例如,对于punkt数据,.spec文件为here。复制其他数据包非常容易。

从Fedora Rawhide上的OBS安装:

dnf config-manager --add-repo http://download.opensuse.org/repositories/home:jayvdb:nltk_data/Fedora_Rawhide/home:jayvdb:nltk_data.repo
dnf install nltk-data-punkt

OBS download page提供了更多下载说明。

答案 3 :(得分:0)

nltk数据的布局非常简单。在有权访问github的计算机上运行nltk.download(),下载您感兴趣的资源(如果您还不知道,我推荐" book"捆绑),然后找到生成nltk_data文件夹,只需将层次结构复制到nltk可以找到它的位置的工作计算机。 (例如,查看下载程序尝试安装的位置)。