使用NLTK作为依赖关系的Python包

时间:2018-02-21 01:05:33

标签: python parsing nltk

我在没有任何点击的情况下四处寻找与此有关的问题,所以我们走了:

我正在开发一个在PyPi.org上部署的玩具python包。其工作的一部分涉及简化解析文本和生成标记化句子的过程。当然,我已经考虑过使用nltk来完成工作,亲自使用了包中punkt之类的工具。

以下是问题和我的问题:看了nltk的大小及其工作要求,大小差不多是 10千兆字节,我和#39;我们得出的结论是,对于任何想要使用我的包裹的人来说,这是一个古怪的负担。

无论如何都要部署一个预先训练好的" punkt的实例?或者我可以控制nltk使用的语料库的大小吗?

我同样愿意接受一个替代的解决方案/解决方案来解析相对"理智"人类文本有点接近nltk的性能,但没有相同的磁盘内存占用。

感谢您的帮助。

@matisetorm为我提供的解决方案是:

python -m nltk.downloader punkt

1 个答案:

答案 0 :(得分:1)

绝对。

1)您可以选择性地下载Programmatically install NLTK corpora / models, i.e. without the GUI downloader?中描述的语料库,例如,

python -m nltk.downloader <your package you would like to download>

2)或使用带有http://www.nltk.org/data.html

指示的GUI

这基本上等于执行以下操作和命令行

python3
import nltk
nltk.download()