立即下载google colaboratory中的所有nltk软件包

时间:2018-03-03 15:18:24

标签: python package nltk google-colaboratory

我想在google colab上的代码中使用停用词,当我导入有关nltk的东西时没有错误但是当我在我的代码中使用停用词时google colab会出现此错误: -

Resource 'corpora/stopwords.zip/stopwords/' not found.  Please
use the NLTK Downloader to obtain the resource:  >>>
nltk.download()

但是当我这样做时: -

 import nltk
 nltk.download()

它给了我所有的包列表,所以我必须选择1下载,在终端我可以做#34;所有"下载所有软件包,但我如何在谷歌colab?我不想每次都添加一个名字来下载东西。这是colab在我做的时候给我看的" nltk.download()": -

NLTK下载器

d)下载l)列表u)更新c)配置h)帮助q)退出

 Downloader> d

 Download which package (l=list; x=cancel)?

有什么办法可以一次性将所有nltk软件包下载到google colab的项目中吗?

3 个答案:

答案 0 :(得分:4)

使用:

import nltk

nltk.download('all')

它对我有用。

答案 1 :(得分:3)

遇到相同问题时,我到达了此页面。
我可以在Google colab上将此代码与“热门”一起使用。

import nltk
nltk.download("popular")

答案 2 :(得分:0)

您还有其他几种选择:

all-corpora......... All the corpora
all-nltk............ All packages available on nltk_data gh-pages
                           branch
all................. All packages
book................ Everything used in the NLTK Book
popular............. Popular packages
tests............... Packages for running tests

您可以将它们用作:

import nltk
nltk.download('book')
#or
nltk.download('tests')
#or
nltk.download('all-corpora')# not recommended as it download huge amount of data.