Spark集群 - 在hadoop上读/写

时间:2017-02-21 02:17:06

标签: hadoop apache-spark elasticsearch yarn

我想从hadoop读取数据,在spark上处理,并在hadoop和弹性搜索上得到wirte结果。我有很少的工作节点来做这件事。

Spark独立集群是否足够?或者我是否需要使用hadoop集群来使用纱线或介子?

如果独立群​​集模式已足够,是否应该在所有节点上设置jar文件,而不像纱线,mesos模式?

1 个答案:

答案 0 :(得分:2)

首先,您无法在Hadoop中写入数据或从Hadoop读取数据。它是HDFS(Hadoop生态系统的组件),负责数据的读/写。 现在回答你的问题

  1. 是的,可以从HDFS读取数据并在spark引擎中处理它,然后在HDFS上写入输出。

  2. YARN,mesos和spark standalone都是集群管理器,您可以使用它们中的任何一个来管理集群中的资源,它与hadoop无关。但是,由于您想要从/向HDFS读取和写入数据,因此您需要在群集上安装HDFS,因此最好在所有节点上安装hadoop,这些节点也将在所有节点上安装HDFS。现在,无论你想使用YARN,mesos还是独立的spark独立,都可以使用HDFS我自己使用spark standalone进行集群管理。

  3. 目前尚不清楚你正在谈论哪些jar文件,但我认为它会产生火花然后是的你需要在每个节点上设置火花罐的路径,以便在路径中没有矛盾火花跑。