应用错误收集

分布式任务执行工具

时间：2016-01-27 17:08:23

标签： apache-spark distributed distributed-computing

仅为分布式任务执行使用spark是否有益。我有处理大数据集的要求（从数据库，进程读取，写入数据库）但是完成的处理是行级。这意味着我不需要减少或机器学习。

使用spark来达到这种要求是不是太过分了。什么最适合这种要求。我不想进入编写最佳分发，处理故障，重试等的软件基础设施

1 个答案:

答案 0 :(得分：1)

Spark更适用于处理（实际）大型数据集和内存。一种选择是使用任何开源IMDG并以类似的方式处理数据，但（可能）的复杂性较低。

您还可以根据要使用的语言选择IMDG引擎。对于.Net，您可以使用NCache，而对于Java，有很多但您可以使用TayzGrid