导入nltk库时找不到语料库/停用词

时间:2017-01-12 10:19:22

标签: python nltk

我尝试在python 2.7中导入nltk包

  import nltk
  stopwords = nltk.corpus.stopwords.words('english')
  print(stopwords[:10])

运行此命令会出现以下错误:

LookupError: 
**********************************************************************
Resource 'corpora/stopwords' not found.  Please use the NLTK
Downloader to obtain the resource:  >>> nltk.download()

因此,我打开我的python终端并执行以下操作:

import nltk  
nltk.download()

这给了我:

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

然而,这似乎并未停止。再次运行它仍然给我同样的错误。有什么想法会出错吗?

12 个答案:

答案 0 :(得分:43)

您目前正在尝试下载nltk数据中的所有项目,因此这可能需要很长时间。您可以尝试仅下载所需的停用词:

import nltk
nltk.download('stopwords')

答案 1 :(得分:11)

here Kurt Bourbaki提到的一些https://plnkr.co/edit/lows7kDId5jK8tpgvzxf?p=preview但是在命令行中:

python -m nltk.downloader stopwords

答案 2 :(得分:3)

您可以在控制台中单独执行此操作。
它将为您带来结果。

import nltk
nltk.download('stopwords')

遇到此问题时,我使用了jupyter控制台。

答案 3 :(得分:3)

从命令行运行以下命令:

python -m nltk.downloader stopwords

注意:VPN断开时运行该命令。

答案 4 :(得分:0)

只需在ipython笔记本(或您正在使用的任何其他文本编辑器/ IDE)中运行此命令:

import nltk

nltk.download('stopwords')

它将自动下载stopword文件并将其解压缩到所需目录。

答案 5 :(得分:0)

如果您的PC使用代理进行连接,请尝试以下操作:

import nltk

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
nltk.download('stopwords')

答案 6 :(得分:0)

您可以在Python 3的命令行中输入此内容

python3 -m nltk.downloader stopwords

答案 7 :(得分:0)

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

如果在jupyter笔记本中运行此命令,它将打开另一个名为“ NLTK Downloader”的窗口。进入该窗口后,您可以选择要下载的主题,然后单击“下载”按钮开始下载。

在关闭NLTK Downloader窗口之前,Jupyter中的单元将继续运行。

答案 8 :(得分:0)

如果遇到SSL /证书错误,请运行以下命令。

这可以通过禁用SSL检查来实现!

import nltk
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download()

答案 9 :(得分:0)

我知道评论已经很晚了,但如果有帮助:

虽然 nltk.download('stopwords') 可以完成这项工作,但如果您的组织阻止了它,有时它可能会因代理问题而无法工作。

我发现 this github link 非常方便,我可以从中提取单词列表并将其手动集成到我的项目中,作为一种解决方法。

答案 10 :(得分:0)

"python3 -m nltk.downloader stopwords" 如果你安装了 python3 版本或者你的系统上安装了多个 python 版本

答案 11 :(得分:-1)

如果已安装python 3,请在命令提示符下键入。

>>python
>>import nltk

这是为了检查您是否已安装nltk 其他方式安装

>>pip install nltk

然后,如果您只想安装停用词目录,请使用

>>python -m nltk.downloader stopwords

与安装整个软件包相比,这将花费更少的时间 然后

>> import nltk
>> nltk.download('punkt')

在此之后,您就可以在编译器中使用停用词了