Rapidminer - 处理大型数据集时内存不足

时间:2014-10-07 11:48:58

标签: java out-of-memory rapidminer

在Rapidminer v.5.3013中,我希望实现以下目标:

  1. 从数据库表中读取1500万条记录 - 只有一个属性,但最多包含4096个字符
  2. 该数据集的正则表达式替换
  3. 根据朴素贝叶斯分类
  4. 将结果(也是1500万行)写入另一个表
  5. 我在RapidAnalytics上运行了8GB RAM专用的进程,但它始终与java.lang.OutOfMemoryError崩溃。

    可能我必须遍历记录的较小子集,并将追加结果的每个部分迭代到目标表。有一个名为“循环数据集”的运算符,但我无法找到合适的选项/参数来迭代我需要它的方式。

    有人可能知道如何解决这个问题吗?

1 个答案:

答案 0 :(得分:2)

您可以尝试Loop Batches运算符并将Replace(Dictionary)放入其中,然后执行追加。