是否可以在NLTK punkt word_tokenize中仅使用english.pickle来减小部署包的大小?

时间:2019-01-05 15:40:07

标签: python aws-lambda nltk pickle tokenize

我创建了一个使用NLTK和其他库的AWS Lambda函数,但是部署程序包的压缩大小和未压缩大小分别超过了50MB和250MB的大小限制。

我认为可以缩小部署包大小的一种方法是,删除nltk_data / tokenizers / punkt文件夹中的所有非英语pickle文件,但这会在执行时出现加载文件错误,因为我相信Python会查找所有语言文件。

是否可以在from nltk import word_tokenize或使用word_tokenize()的地方指定英语?如果我可以在某处指定一种语言,它还会需要其他语言文件吗?

0 个答案:

没有答案