我创建了一个使用NLTK和其他库的AWS Lambda函数,但是部署程序包的压缩大小和未压缩大小分别超过了50MB和250MB的大小限制。
我认为可以缩小部署包大小的一种方法是,删除nltk_data / tokenizers / punkt文件夹中的所有非英语pickle文件,但这会在执行时出现加载文件错误,因为我相信Python会查找所有语言文件。
是否可以在from nltk import word_tokenize
或使用word_tokenize()
的地方指定英语?如果我可以在某处指定一种语言,它还会需要其他语言文件吗?