应用错误收集

使用weka训练机器学习分类器

时间：2014-03-16 05:12:02

标签： java machine-learning weka smo

我正在做一个关于识别推文中情绪的项目。我有一个大约五十万的推文数据集。我使用weka.classifiers.functions.SMO作为机器学习分类器。我确实有10577个特征词，这意味着每个推文的特征向量将具有10577个属性，另外还有一个用于指定CLASS。

我正在开发Windows环境。我正在进行16GB系统的培训。但我仍然得到了#of; outofmemoryerror java heap space＆＃34;错误。我的训练集大小约为8MB。我尝试在weka runconfiguration.ini中增加堆大小以及在java中增加-Xmx选项。有没有办法为大型数据集训练SMO分类器，或者可以逐步训练SMO分类器？

1 个答案:

答案 0 :(得分：3)

我在使用Weka时遇到了类似的问题，我猜标准的JVM无法处理如此巨大的空间需求。可能还有其他方法，但当我用谷歌搜索它时，我看到有人建议使用Oracle JRockit作为JVM。当我安装它时，我的问题立即解决了。也许你可以尝试一下。