我正在做一个关于识别推文中情绪的项目。我有一个大约五十万的推文数据集。我使用weka.classifiers.functions.SMO作为机器学习分类器。我确实有10577个特征词,这意味着每个推文的特征向量将具有10577个属性,另外还有一个用于指定CLASS。
我正在开发Windows环境。我正在进行16GB系统的培训。但我仍然得到了#of; outofmemoryerror java heap space"错误。我的训练集大小约为8MB。我尝试在weka runconfiguration.ini中增加堆大小以及在java中增加-Xmx选项。 有没有办法为大型数据集训练SMO分类器,或者可以逐步训练SMO分类器?
答案 0 :(得分:3)
我在使用Weka时遇到了类似的问题,我猜标准的JVM无法处理如此巨大的空间需求。可能还有其他方法,但当我用谷歌搜索它时,我看到有人建议使用Oracle JRockit作为JVM。当我安装它时,我的问题立即解决了。也许你可以尝试一下。