无法下载nltk数据

时间:2014-01-13 16:39:38

标签: nltk

我正在尝试下载nltk的所有数据包。但是在尝试下载framenet_v15时总是失败。它只是挂在那里。

从同一台机器多次尝试。每次几乎离开30分钟,一次超过一小时。试图将源服务器替换为goole svn,但是下载器发出错误。

不幸的是,我没有任何其他信息。有没有办法解决问题是什么?或者我可以从哪里下载nltk数据?

感谢。

编辑:

最后使用wget -c下载,在完成下载之前需要进行大量重试。

一些观察

  1. 下载了一些数据后,连接就会冻结。 ping无法访问服务器。
  2. 可下载的数据在托管nltk.org的同一台服务器上共享。
  3. 每当下载冻结时,该站点也不可用(不是nltk.org),而是其他未启用缓存的站点。显然服务器无法提供服务。
  4. 可能存在资源泄漏,这表明此次下载。
  5. 可能会有一个进程重启,这会使服务器在一段时间后可用(约2分钟)。
  6. 为什么大型下载者不使用洪流?下载的另一个选择。

4 个答案:

答案 0 :(得分:2)

编辑:这是一个直接链接,允许您从Frame Net项目请求数据:https://framenet.icsi.berkeley.edu/fndrupal/framenet_request_data

当我下载NLTK数据时,我不得不多次运行下载程序,因为它一直挂起。

此处还有各个文件的列表:http://nltk.org/nltk_data/

我刚刚从此链接下载了framenet_v15:http://nltk.github.com/nltk_data/packages/corpora/framenet_v15.zip

另外,请参阅此问题以获取更多有关此问题的讨论:Installing natural language toolkit data

答案 1 :(得分:0)

FWIW我在framenet v15上遇到了同样的问题。重新启动nltk.download()并从语料库中单独下载framenet包似乎对我有用。完成后,我可以从集合选项卡中完成下载所有其他内容。

答案 2 :(得分:0)

假设您因使用wget而在Unix上,我建议您为所需的NLTK数据包创建一个包(即framenet)。

我最近因类似原因创建了nltk-data-punkt.spec,它可以作为其他数据包的示例。

答案 3 :(得分:0)

我尝试通过

下载
import nltk

nltk.download('all')

对我有用