请大家在Mac OS上的Eclipse IDE上使用nltk吗?我试图找到nltk语料库数据的存储位置。我做了一些挖掘,发现它们位于我的机器上: /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/init.pyc 但当我进入nltk目录时,我发现了一个语料库文件夹,但里面却没有类似于语料库。任何有关于接下来要做什么的提示的人?
答案 0 :(得分:1)
在MacOS上,它似乎默认为您的主目录,因此/Users/X/nltk_data
。但是,这取决于安装位置。根据MattDMo的评论,如果找不到所需的内容,打开GUI可以为您提供更多答案:
import nltk
nltk.download()
如果只想将其安装在特定位置,请考虑使用命令行选项(对于Docker和脚本编写也可能有用):
python3 -m nltk.downloader -d /Users/X/nltk_data all
答案 1 :(得分:0)
Corpora不是作为基础nltk
包的一部分分发的,因为并非模块的所有用户都需要它们,而且其中许多用户都非常大 - 最后我检查过,有一个被列为1.7 GB对于任何人来说都不是一个简单的下载。
但是,如果您阅读了优秀的NLTK docs,您将立即看到如何选择语料库进行下载:
>>> import nltk
>>> nltk.download()
这将打开一个不错的基于Tk的GUI(在适当的环境中)或基于文本的GUI,并允许您搜索,选择和下载感兴趣的语料库,甚至可以获得所有内容,这在高科技圈子中是众所周知的作为“整个shebang。”您甚至可以选择存储新下载语料库的目录。简单!
您以某种方式找到的corpus
目录包含nltk.corpus
的源代码,其中包含处理语料库的工具,而不是实际的语料库。