Apache Spark与Apache Spark 2

时间:2016-10-21 05:03:02

标签: apache-spark apache-spark-2.0

Apache Spark2与Apache Spark相比有哪些改进?

  1. 从架构角度来看
  2. 从应用程序的角度来看
  3. 或更多

2 个答案:

答案 0 :(得分:11)

  

Apache Spark 2.0.0 API大致类似于1.X,Spark   2.0.0确实有API中断更改

Apache Spark 2.0.0 是2.x系列的第一个版本。主要更新包括 API可用性,SQL 2003支持,性能改进,结构化流,R UDF支持以及运营改进

  

火花2中的新功能:

  • 我可以看到的最大变化是将合并DataSet和DataFrame API。
  • 与前辈相比,Spark的最新和最好的效率将非常高效。 Spark 2.0将专注于Parquet和缓存的组合,以实现更高的吞吐量。
  • 结构化流媒体是另一件大事!
  • 这将是第一个专注于ETL的版本。连续版本将为ETL添加更多运算符和库

您可以浏览Spark release 2.0.0,其中解释了以下几点的更新:

  • API稳定性
  • Core和Spark SQL
  • MLlib
  • SparkR
  • 依赖,打包和运营
  • 删除,行为更改和弃用
  • 已知问题

答案 1 :(得分:5)

在架构方面没有太大区别,因为简而言之仍然是DAG和RDD,这是它最重要的部分!

虽然Spark 2.0更加优化,并且具有DataSet Api,它为开发人员提供了更强大的功能。 所以我会说架构是一样的,它只是Spark 2.0提供了很多优化,并拥有丰富的Api!

这些是Apache Spark 2.0提供的主要内容:

  • 我能看到的最大变化是DataSet和DataFrame API 将被合并。
  • 来自Spark的最新和最伟大的将是一个整体 与前辈相比,效率很高。 Spark 2.0即将推出 专注于Parquet和缓存的结合,实现更好 吞吐量。
  • 结构化流媒体是另一件大事!
  • 这将是 第一个将专注于ETL的版本。连续版本将为ETL添加更多运算符和库

如需了解更多信息,请点击此处:https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions