分布式任务执行工具

时间:2016-01-27 17:08:23

标签: apache-spark distributed distributed-computing

仅为分布式任务执行使用spark是否有益。我有处理大数据集的要求(从数据库,进程读取,写入数据库)但是完成的处理是行级。这意味着我不需要减少或机器学习。

使用spark来达到这种要求是不是太过分了。什么最适合这种要求。我不想进入编写最佳分发,处理故障,重试等的软件基础设施

1 个答案:

答案 0 :(得分:1)

Spark更适用于处理(实际)大型数据集和内存。一种选择是使用任何开源IMDG并以类似的方式处理数据,但(可能)的复杂性较低。

您还可以根据要使用的语言选择IMDG引擎。对于.Net,您可以使用NCache,而对于Java,有很多但您可以使用TayzGrid