我刚刚开始自然语言处理,我想知道如何正确运行 word_tokenize 和 sent_tokenize 。我知道python已经建议执行以下操作
import nltk
nltk.download('punkt')
但是我们的代理阻止我们使用python“下载”。 幸运的是,我可以通过http://www.nltk.org/nltk_data/
下载文件我尝试创建nltk_data并在那里提取punkt,但问题仍然存在。我想知道如何用您的专业知识来纠正此问题。
答案 0 :(得分:0)
解决了!
您应该将 punkt 放在 nltk_data 下,而不是在 nltk_data 内创建一个标记为“ 令牌”的新文件夹。 punkt 应该放在里面的位置
示例:
C:\Users\(username)\nltk_data\tokenizers\punkt