我在没有任何点击的情况下四处寻找与此有关的问题,所以我们走了:
我正在开发一个在PyPi.org上部署的玩具python包。其工作的一部分涉及简化解析文本和生成标记化句子的过程。当然,我已经考虑过使用nltk
来完成工作,亲自使用了包中punkt
之类的工具。
以下是问题和我的问题:看了nltk
的大小及其工作要求,大小差不多是 10千兆字节,我和#39;我们得出的结论是,对于任何想要使用我的包裹的人来说,这是一个古怪的负担。
无论如何都要部署一个预先训练好的" punkt
的实例?或者我可以控制nltk
使用的语料库的大小吗?
我同样愿意接受一个替代的解决方案/解决方案来解析相对"理智"人类文本有点接近nltk
的性能,但没有相同的磁盘内存占用。
感谢您的帮助。
@matisetorm为我提供的解决方案是:python -m nltk.downloader punkt
答案 0 :(得分:1)
绝对。
1)您可以选择性地下载Programmatically install NLTK corpora / models, i.e. without the GUI downloader?中描述的语料库,例如,
python -m nltk.downloader <your package you would like to download>
2)或使用带有http://www.nltk.org/data.html
指示的GUI这基本上等于执行以下操作和命令行
python3
import nltk
nltk.download()