Question

我在没有任何点击的情况下四处寻找与此有关的问题，所以我们走了：

我正在开发一个在PyPi.org上部署的玩具python包。其工作的一部分涉及简化解析文本和生成标记化句子的过程。当然，我已经考虑过使用nltk来完成工作，亲自使用了包中punkt之类的工具。

以下是问题和我的问题：看了nltk的大小及其工作要求，大小差不多是 10千兆字节，我和＃39;我们得出的结论是，对于任何想要使用我的包裹的人来说，这是一个古怪的负担。

无论如何都要部署一个预先训练好的＆＃34; punkt的实例？或者我可以控制nltk使用的语料库的大小吗？

我同样愿意接受一个替代的解决方案/解决方案来解析相对＆＃34;理智＆＃34;人类文本有点接近nltk的性能，但没有相同的磁盘内存占用。

感谢您的帮助。

@matisetorm为我提供的解决方案是：

python -m nltk.downloader punkt

Answer 1

绝对。

python -m nltk.downloader <your package you would like to download>

指示的GUI

这基本上等于执行以下操作和命令行

python3
import nltk
nltk.download()