应用错误收集

在不同的群集/计算机上部署Spark和Hadoop

时间：2015-09-20 20:40:37

标签： hadoop apache-spark apache-spark-sql

Spark和Hadoop / Yarn可以部署在不同的集群上吗？

问题场景如下：

数据/配置单元表已驻留在Hadoop湖中。
我想对这些数据实施一些BI处理。
一种方法是在此Hadoop集群上部署Spark，并利用现有的CPU / RAM资源进行数据处理。这很好。
但是我希望将不同的设置设置为从Hadoop湖获取数据的Spark Cluster（4个工作节点）（数据大小不超过500GB），从Spark集群处理和显示输出。有时，处理后的数据将存储在Hadoop湖中。这样做的原因是它让我可以更好地控制我的BI逻辑，并且不会干扰现有的Hadoop湖。我对网络流量'好'。这种方法可行吗？

请建议

此致众议员

0 个答案:

没有答案