我正在尝试从nltk.corpus导入停用词。因为我遇到代理问题,所以我无法使用nltk.download('停用词')。我试图手动导入停用词。所以这就是我所做的。我从github.com下载了nltk_data,并使用nltk.data.path配置了适当的路径。但是,当我尝试顶级运行此代码时:
import nltk
from nltk.corpus import stopwords
print(stopwords.words('english'))
>Resource 'corpora/stopwords' not found. Please use the NLTK
>Downloader to obtain the resource: >>> nltk.download()
>Searched in:
-'C:\\Program Files\\Anaconda3\\Lib\nltk_data'
我的所有nltk数据都出现在上面的路径中,而corpora文件夹也有停用词。正如我上面所说,我不能使用nltk.download()。我在这里错过了什么吗?
我重置了所有spyder设置并再次运行此代码。:
import nltk
from nltk.corpus import stopwords
print(stopwords.words('english'))
我收到如下错误:
LookupError:
**********************************************************************
Resource 'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
Searched in:
- 'C:\\Users\\586594/nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- 'C:\\Program Files\\Anaconda3\\nltk_data'
- 'C:\\Program Files\\Anaconda3\\lib\\nltk_data'
- 'C:\\Users\\586594\\AppData\\Roaming\\nltk_data'
**********************************************************************
所有我的nltk数据都出现在他" C:\ Program Files \ Anaconda3 \ nltk_data"和语料库目录有停用词。
答案 0 :(得分:1)
您使用Python命令设置nltk_data
路径,不是吗?仔细查看错误消息中的路径:
-'C:\\Program Files\\Anaconda3\\Lib\nltk_data'
路径组件之间的反斜杠加倍,除了最后一个; 您的路径中有一个字面换行符(\n
)。为了避免这样的意外,始终在您编写Windows路径时使用原始字符串。 E.g。
nltk.data.path.append(r"C:\Program Files\Anaconda3\Lib\nltk_data")
答案 1 :(得分:0)
我通过导入nltk并从中下载“停用词”来解决此问题。
import nltk
nltk.download('stopwords')