HTTP错误403禁止 - 下载nltk数据时

时间:2017-07-27 05:47:09

标签: python-3.x nltk

我在访问nltk data时遇到了一些问题。我试过了nltk.download()。 gui页面出现HTTP Error 403: Forbidden错误。我还尝试从命令行安装here

python -m nltk.downloader all

并收到此错误。

  
    

C:\ Python36 \ lib \ runpy.py:125:运行时警告:'nltk.downloader'在导入包'nltk'之后但在执行'nltk.downloader'之前在sys.modules中找到;这可能导致不可预测的行为警告(RuntimeWarning(msg))[nltk_data]加载全部错误:HTTP错误403:禁止。

  

我也会浏览How do I download NLTK data?Failed loading english.pickle with nltk.data.load

3 个答案:

答案 0 :(得分:3)

问题来自nltk下载服务器。如果您查看gui的配置,它会指向此链接

https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

如果您在浏览器中访问此链接,则会将此消息作为消息:

Error 403 Forbidden.

Forbidden.

Guru Mediation:

Details: cache-lcy1125-LCY 1501134862 2002107460

Varnish cache server

所以,我打算在github上提出一个问题,但其他人已经在这里做过了:https://github.com/nltk/nltk/issues/1791

此处建议采用解决方法:https://github.com/nltk/nltk/issues/1787

基于对github的讨论:

  

似乎Github正在关闭/阻止对原始内容的访问   回购。

建议的解决方法是手动下载如下:

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

人们还建议使用替代指数如下:

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt

答案 1 :(得分:0)

转到/nltk/downloader.py

并更改默认网址:

DEFAULT_URL ='http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'

DEFAULT_URL ='http://nltk.github.com/nltk_data/'

答案 2 :(得分:0)

对我来说,最好的解决方案是:

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

link

替代解决方案对我不起作用

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt