我通过水壶从mongodb源加载mysql表。
Mongodb表有超过400万条记录,当我运行水壶工作时,第一次加载需要17个小时。
即使是增量加载也需要一个多小时。我尝试增加提交大小并为作业提供更多内存,但性能仍然没有提高。我认为JSON
输入步骤需要很长时间来解析数据,因此它非常慢。
我在转型中有这些步骤
从postgre中提取的相同的400万条记录比mongodb更快。 有没有办法可以提高性能? 请帮帮我。
谢谢, Deepthi
答案 0 :(得分:0)
运行该步骤的多个副本。听起来你有mongo输入然后一个json输入步骤来解析json结果吗?因此,使用4或8个json输入步骤(或更多取决于cpu),它会加速。
或者你真的需要解析完整的json,也许你可以通过正则表达式或其他东西提取数据。