Spark和Hadoop / Yarn可以部署在不同的集群上吗?
问题场景如下:
- 数据/配置单元表已驻留在Hadoop湖中。
- 我想对这些数据实施一些BI处理。
- 一种方法是在此Hadoop集群上部署Spark,并利用现有的CPU / RAM资源进行数据处理。这很好。
- 但是我希望将不同的设置设置为从Hadoop湖获取数据的Spark Cluster(4个工作节点)(数据大小不超过500GB),从Spark集群处理和显示输出。有时,处理后的数据将存储在Hadoop湖中。这样做的原因是它让我可以更好地控制我的BI逻辑,并且不会干扰现有的Hadoop湖。我对网络流量'好'。这种方法可行吗?
醇>
请建议
此致
众议员