我发现了一些-Phadoop-provided
标志的引用,用于构建没有hadoop库的spark但是找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何自己的hadoop依赖项。看起来当我构建最新的火花时,它包含了一堆2.8.x
hadoop的东西,与我的群集hadoop版本冲突。
答案 0 :(得分:1)
Spark有“使用用户提供的Hadoop预构建”的下载选项,因此以spark-VERSION-bin-without-hadoop.tgz
命名
如果你真的想构建它,那么从项目根目录
运行它./build/mvn -Phadoop-provided -DskipTests clean package