HDInsight Hadoop集群与之间的区别是什么? HDInsight Spark集群?我已经看到即使在Hadoop集群中也可以使用pyspark。与集群类型有何不同?即Hadoop集群意味着YARN是一个集群管理层,而Spark意味着Spark Standalone(或Mesos?)是一个集群管理层?
如果是这种情况,我们仍然可以在Hadoop集群中运行Spark,我相信Spark会在YARN之上运行。
答案 0 :(得分:1)
HDInsight Spark使用YARN作为群集管理层,就像Hadoop一样。集群上的二进制文件是相同的。
HDInsight Spark和Hadoop集群之间的区别如下:
1)最佳配置: Spark群集已针对spark工作负载进行调整和配置。例如,我们预先配置了火花星团以使用SSD并根据机器资源调整执行器内存大小,因此客户将获得比火花默认配置更好的开箱即用体验。
2)服务设置: Spark集群还运行与Spark相关的服务,包括Livy,Jupyter和Spark Thrift Server。
3)工作负载质量:我们在每次发布之前测试火花集群上的火花工作负载,以确保服务质量。
答案 1 :(得分:0)
这些位与您注意到的相同。不同之处在于默认运行的服务和Ambari组件(在Spark上你将有额外的spark thrift,livy,jupyter)和这些服务的配置集。因此,虽然技术上可以在hadoop集群上的纱线上运行火花作业,但不推荐使用,但某些配置可能未设置为最佳值。另一种方式是更可靠 - 创建火花集群并在其上运行hadoop作业。
Maxim(HDInsight Spark PM)