在Maven项目中使用HiveContext

时间:2015-03-08 19:55:09

标签: eclipse scala maven apache-spark apache-spark-sql

我使用Maven构建Spark-1.2.1以使用以下命令启用Hive支持: mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -DskipTests clean package

导致在/spark-1.2.1/core/target/scala-2.10/classes文件夹

中生成了一些类文件

现在我如何在我的Eclipse + Maven项目中使用这个新构建的Spark?我想在Eclipse中使用Spark-SQL的HiveContext类。

1 个答案:

答案 0 :(得分:18)

当你要在java程序中使用SparkSQL时,你可以简单地将相应的依赖项添加到你的maven项目中,并且你可以使用所需的类。使用hive支持构建spark可以启动带有hive支持的spark守护进程。它生成一个程序集jar,需要复制到所有spark worker节点。有关详细信息,请参阅here

使HiveContext工作的Maven依赖项:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.2.1</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.10</artifactId>
    <version>1.2.1</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.10</artifactId>
    <version>1.2.1</version>
</dependency>