Question

我发现了一些-Phadoop-provided标志的引用，用于构建没有hadoop库的spark但是找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何自己的hadoop依赖项。看起来当我构建最新的火花时，它包含了一堆2.8.x hadoop的东西，与我的群集hadoop版本冲突。

Answer 1

Spark有“使用用户提供的Hadoop预构建”的下载选项，因此以spark-VERSION-bin-without-hadoop.tgz命名

如果你真的想构建它，那么从项目根目录

运行它

./build/mvn -Phadoop-provided -DskipTests clean package

构建spark没有任何hadoop依赖

1 个答案: