应用错误收集

是否可以在NLTK punkt word_tokenize中仅使用english.pickle来减小部署包的大小？

时间：2019-01-05 15:40:07

标签： python aws-lambda nltk pickle tokenize

我创建了一个使用NLTK和其他库的AWS Lambda函数，但是部署程序包的压缩大小和未压缩大小分别超过了50MB和250MB的大小限制。

我认为可以缩小部署包大小的一种方法是，删除nltk_data / tokenizers / punkt文件夹中的所有非英语pickle文件，但这会在执行时出现加载文件错误，因为我相信Python会查找所有语言文件。

是否可以在from nltk import word_tokenize或使用word_tokenize()的地方指定英语？如果我可以在某处指定一种语言，它还会需要其他语言文件吗？

0 个答案:

没有答案