Spark是否仍然有利于非迭代分析?

时间:2015-07-21 02:40:05

标签: apache-spark analytics latency spark-streaming

Spark在内存计算和缓存中用于减少复杂分析的延迟,但这主要用于迭代算法", 如果我需要执行更基本的分析,也许每个元素都是一组数字,我想查找标准差小于' x'与常规集群计算(没有内存计算)相比,Spark会减少延迟吗?假设我在每种情况下使用相同的商品硬件。

2 个答案:

答案 0 :(得分:2)

它与顶级排序框架并列使用了这些额外的机制,所以我认为这是足够的理由。但是,您还可以在不必切换齿轮的情况下运行流式传输,绘图或机器学习。然后,添加您应该尽可能使用DataFrames,并获得超出我所知的任何其他框架的查询优化。所以,是的,Spark几乎在每个实例中都是明智的选择。

答案 1 :(得分:1)

关于spark的一个好处是它的数据源API将它与SparkSQL相结合,使您能够一起查询和连接不同的数据源。 SparkSQL现在包含了不错的优化器 - 催化剂。正如其中一个答案以及spark中的核心(RDD)中所提到的,您还可以包括流数据,应用机器学习模型和图算法。是的。