我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。
我了解我需要使用Hadoop来保存和加载文件。 我的Spark安装是spark-2.2.1-bin-hadoop2.7
问题1: 我是否仍然需要单独下载,安装和配置Hadoop以与我的独立Spark集群一起使用?
问题2: 使用Hadoop运行和使用Yarn运行有什么区别? ...而且哪个更容易安装和配置(假设数据负载很小)?
答案 0 :(得分:1)
A1。对。您提到的软件包仅包含指定版本的hadoop客户端,如果要使用hdfs,仍然需要安装hadoop。
A2。与纱线一起运行意味着您正在使用Spark的资源管理器作为纱线。 (http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-across-applications)因此,在不需要DFS的情况下(例如,仅运行Spark Streaming应用程序时),您仍然可以安装Hadoop,但只能运行yarn进程以使用其资源管理功能。