应用错误收集

如何针对大型训练数据优化NLTK Naive Bayes

时间：2015-09-09 08:40:52

标签： python performance migration bigdata nltk

训练NLTK朴素贝叶斯算法，对600万个单词样本进行训练，每个样本有25个特征集训练样本。我在/var/syslog中遇到以下错误：

内存不足：杀死进程31349（python）得分787或牺牲孩子

系统有32GB内存，7个内核，运行3天后我收到上述消息。

如何处理此错误，我该如何优化NLTK朴素贝叶斯？我应该迁移到其他平台，例如 scikit ， datao 吗？

0 个答案:

没有答案