假设我的任务可以分为多个子任务,这些子任务可以相互独立执行,而无需从头到尾进行通信或共享资源。在这种情况下使用Spark是否有意义?还是有另一种解决方案可能更容易在hadoop集群上实现。我的每个子任务都会进行大量的REST API调用,而且我不确定Spark是否适合此类处理(如果是,那么我是否应该在每个节点上都包括我的api服务?)。
编辑:假设我有十亿行数据,可以将其分组为数千个组。所有数据都无法容纳在一台计算机上。这n个组可以彼此独立地进行处理。处理组意味着计算和一次对REST api的调用。