我正在使用python NLTK作为Django应用程序。我在本地下载了NLTK语料库,工作正常。对于heroku,我尝试将语料库放到文件系统上并推送到heroku(如此处所述:LookupError: Resource 'corpora/stopwords' not found)但这超出了heroku的1GB限制。
现在我已将语料库添加到AWS S3存储桶,但无法弄清楚如何将nltk数据导入django应用程序。我该怎么做?谢谢!
答案 0 :(得分:1)
这样做的方法是将S3存储桶公开,然后使用相应的URL获取所需的对象。
例如:
pos_tagger = nltk.data.load("http://<your S3 bucket with the nltk data>.s3.amazonaws.com/nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")