应用错误收集

假设我的任务可以分为多个子任务，这些子任务可以相互独立执行，而无需从头到尾进行通信或共享资源。在这种情况下使用Spark是否有意义？还是有另一种解决方案可能更容易在hadoop集群上实现。我的每个子任务都会进行大量的REST API调用，而且我不确定Spark是否适合此类处理（如果是，那么我是否应该在每个节点上都包括我的api服务？）。

编辑：假设我有十亿行数据，可以将其分组为数千个组。所有数据都无法容纳在一台计算机上。这n个组可以彼此独立地进行处理。处理组意味着计算和一次对REST api的调用。

使用Spark处理完全独立的子任务是否有意义？

0 个答案: