JSON输入的性能问题

时间:2013-08-28 10:16:30

标签: json mongodb pentaho kettle

我通过水壶从mongodb源加载mysql表。 Mongodb表有超过400万条记录,当我运行水壶工作时,第一次加载需要17个小时。 即使是增量加载也需要一个多小时。我尝试增加提交大小并为作业提供更多内存,但性能仍然没有提高。我认为JSON输入步骤需要很长时间来解析数据,因此它非常慢。 我在转型中有这些步骤

  1. Mongodb输入步骤
  2. Json输入
  3. 字符串切换
  4. 如果字段值为空
  5. Concat字段
  6. 选择值
  7. 表格输出。
  8. 从postgre中提取的相同的400万条记录比mongodb更快。 有没有办法可以提高性能? 请帮帮我。

    谢谢, Deepthi

1 个答案:

答案 0 :(得分:0)

运行该步骤的多个副本。听起来你有mongo输入然后一个json输入步骤来解析json结果吗?因此,使用4或8个json输入步骤(或更多取决于cpu),它会加速。

或者你真的需要解析完整的json,也许你可以通过正则表达式或其他东西提取数据。