与其他数据分析工具(如R,python等)相比,为什么火花速度更快

时间:2015-09-28 13:37:28

标签: apache-spark

我正在寻找与Spark相关的一个非常基本的问题的快速回答。我真的不明白火花是如何工作的,为什么速度快?

问题是,“火花是否快,因为它将一个工作分成100个零件并同时运行所有零件或者它是快速的,因为它的处理速度是超快的(在这种情况下,我假设火花不分裂一个工作分为100个部分,但只是一次性处理工作)或者它可以同时处理两个部分?“

另一个问题是,“在一台机器上是不是一组不同的物理机器或一组不同的环境”? 谢谢,

1 个答案:

答案 0 :(得分:0)

问题可能会被关闭,但无论如何:

  • Spark可能会也可能不会对作业进行分区,更准确地说是数据,具体取决于配置。分区有助于并行性,这是正确的,这提供了主要的性能提升。这在Python库或R中不存在或非常有限。

  • 一个相当准确的解释是,spark是一组进程,可能在一台机器上,也可能不在一台机器上。