我们已经在服务器上安装了Hadoop 2.5。是否可以使用该Hadoop来部署Spark程序?我希望Spark使用现有的Yarn来安排任务,并能够读取和写入现有的HDFS。我怎样才能做到这一点?
答案 0 :(得分:3)
您可以尝试使用Apache Spark预先构建的下载 https://spark.apache.org/downloads.html
如果没有成功,那么你需要通过添加你的hadoop罐来建立火花 https://spark.apache.org/docs/latest/building-spark.html 很容易
然后,您的Spark可以通过在spark-default配置中添加配置来直接访问您的HDFS。 检查Spark中可用的所有配置
https://spark.apache.org/docs/latest/configuration.html
您的Spark可以在YARN和本地模型中运行 - https://spark.apache.org/docs/latest/running-on-yarn.html
您无需在现有的hadoop设置中进行任何新的更改 让spark工作,你只需要在Spark中配置一切