如何在python中为大型数据集制作朴素贝叶斯分类器

时间:2014-11-06 04:32:10

标签: python hadoop mapreduce

我有2-3 GB的大型数据集。我正在使用(nltk)朴素贝叶斯分类器使用数据作为列车数据。当我运行小数据集的代码时,它运行正常,但是当运行大型数据集时,它会运行很长时间(超过8小时),然后崩溃而没有太多错误。我相信这是因为内存问题。

此外,在对数据进行分类之后,我希望将分类器转储到文件中,以便以后可以用它来测试数据。这个过程也需要花费太多时间然后崩溃,因为它首先将所有内容加载到内存中。

有没有办法解决这个问题?

另一个问题是,有没有办法并行化整个操作,即使用Hadoop / MapReduce等框架并行化这个大型数据集的分类?

1 个答案:

答案 0 :(得分:0)

我希望你必须动态增加内存来克服这个问题。我希望这个链接可以帮助你 Python Memory Management

Parallelism in Python