我想在google colab上的代码中使用停用词,当我导入有关nltk的东西时没有错误但是当我在我的代码中使用停用词时google colab会出现此错误: -
Resource 'corpora/stopwords.zip/stopwords/' not found. Please
use the NLTK Downloader to obtain the resource: >>>
nltk.download()
但是当我这样做时: -
import nltk
nltk.download()
它给了我所有的包列表,所以我必须选择1下载,在终端我可以做#34;所有"下载所有软件包,但我如何在谷歌colab?我不想每次都添加一个名字来下载东西。这是colab在我做的时候给我看的" nltk.download()": -
Downloader> d
Download which package (l=list; x=cancel)?
有什么办法可以一次性将所有nltk软件包下载到google colab的项目中吗?
答案 0 :(得分:4)
使用:
import nltk
nltk.download('all')
它对我有用。
答案 1 :(得分:3)
遇到相同问题时,我到达了此页面。
我可以在Google colab上将此代码与“热门”一起使用。
import nltk
nltk.download("popular")
答案 2 :(得分:0)
您还有其他几种选择:
all-corpora......... All the corpora
all-nltk............ All packages available on nltk_data gh-pages
branch
all................. All packages
book................ Everything used in the NLTK Book
popular............. Popular packages
tests............... Packages for running tests
您可以将它们用作:
import nltk
nltk.download('book')
#or
nltk.download('tests')
#or
nltk.download('all-corpora')# not recommended as it download huge amount of data.