如何针对大型训练数据优化NLTK Naive Bayes

时间:2015-09-09 08:40:52

标签: python performance migration bigdata nltk

训练NLTK朴素贝叶斯算法,对600万个单词样本进行训练,每个样本有25个特征集训练样本。 我在/var/syslog中遇到以下错误:

  

内存不足:杀死进程31349(python)得分787或牺牲孩子

系统有32GB内存,7个内核,运行3天后我收到上述消息。

如何处理此错误,我该如何优化NLTK朴素贝叶斯?我应该迁移到其他平台,例如 scikit datao 吗?

0 个答案:

没有答案