我在访问nltk data
时遇到了一些问题。我试过了nltk.download()
。 gui页面出现HTTP Error 403: Forbidden
错误。我还尝试从命令行安装here。
python -m nltk.downloader all
并收到此错误。
C:\ Python36 \ lib \ runpy.py:125:运行时警告:'nltk.downloader'在导入包'nltk'之后但在执行'nltk.downloader'之前在sys.modules中找到;这可能导致不可预测的行为警告(RuntimeWarning(msg))[nltk_data]加载全部错误:HTTP错误403:禁止。
我也会浏览How do I download NLTK data?和Failed loading english.pickle with nltk.data.load。
答案 0 :(得分:3)
问题来自nltk下载服务器。如果您查看gui的配置,它会指向此链接
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
如果您在浏览器中访问此链接,则会将此消息作为消息:
Error 403 Forbidden.
Forbidden.
Guru Mediation:
Details: cache-lcy1125-LCY 1501134862 2002107460
Varnish cache server
所以,我打算在github上提出一个问题,但其他人已经在这里做过了:https://github.com/nltk/nltk/issues/1791
此处建议采用解决方法:https://github.com/nltk/nltk/issues/1787。
基于对github的讨论:
似乎Github正在关闭/阻止对原始内容的访问 回购。
建议的解决方法是手动下载如下:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
人们还建议使用替代指数如下:
python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt
答案 1 :(得分:0)
转到/nltk/downloader.py
并更改默认网址:
DEFAULT_URL ='http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'
到
DEFAULT_URL ='http://nltk.github.com/nltk_data/'
答案 2 :(得分:0)
对我来说,最好的解决方案是:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
替代解决方案对我不起作用
python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt