Question

我刚刚开始自然语言处理，我想知道如何正确运行 word_tokenize 和 sent_tokenize 。我知道python已经建议执行以下操作

import nltk
nltk.download('punkt')

但是我们的代理阻止我们使用python“下载”。幸运的是，我可以通过http://www.nltk.org/nltk_data/

下载文件

我尝试创建nltk_data并在那里提取punkt，但问题仍然存在。我想知道如何用您的专业知识来纠正此问题。

abcd

Answer 1

解决了！

您应该将 punkt 放在 nltk_data 下，而不是在 nltk_data 内创建一个标记为“ 令牌”的新文件夹。 punkt 应该放在里面的位置

示例：

C:\Users\(username)\nltk_data\tokenizers\punkt