编译Spark代码时出错:object mapreduce不是包org.apache.hadoop.hbase的成员

时间:2014-08-13 22:18:41

标签: scala maven hbase apache-spark

编辑:我将顶级pom文件中定义的hbase依赖项添加到项目级别pom,现在它可以找到该包。

我有一个scala对象从Spark(1.0.1)中的HBase(0.98.4-hadoop2)表中读取数据。但是,当我尝试导入org.apache.hadoop.hbase.mapreduce.TableInputFormat时,使用maven进行编译会导致错误。

error: object mapreduce is not a member of package org.apache.hadoop.hbase

代码和相关的pom如下:

import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.NewHadoopRDD
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.mapred.JobConf
import org.apache.spark.SparkContext
import java.util.Properties
import java.io.FileInputStream
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat

object readDataFromHbase {

  def main(args: Array[String]): Unit = {
    var propFileName = "hbaseConfig.properties"
    if(args.size > 0){
      propFileName = args(0)
    }

    /** Load properties **/
    val prop = new Properties
    val inStream = new FileInputStream(propFileName)
    prop.load(inStream)

    //set spark context and open input file
    val sparkMaster = prop.getProperty("hbase.spark.master")
    val sparkJobName = prop.getProperty("hbase.spark.job.name")
    val sc = new SparkContext(sparkMaster,sparkJobName )
    //set hbase connection
    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set("hbase.rootdir", prop.getProperty("hbase.rootdir"))
    hbaseConf.set(TableInputFormat.INPUT_TABLE, prop.getProperty("hbase.table.name"))

   val hBaseRDD = sc.newAPIHadoopRDD(hbaseConf, classOf[org.apache.hadoop.hbase.mapreduce.TableInputFormat], 
    classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], 
    classOf[org.apache.hadoop.hbase.client.Result]
    )
    val hBaseData = hBaseRDD.map(t=>t._2)
    .map(res =>res.getColumnLatestCell("cf".getBytes(), "col".getBytes()))
    .map(c=>c.getValueArray())
    .map(a=> new String(a, "utf8"))

    hBaseData.foreach(println)
  }

}

pom文件的Hbase部分是(hbase.version = 0.98.4-hadoop2):

        <!-- HBase -->
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-client</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-server</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-common</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-hadoop2-compat</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-hadoop-compat</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-hadoop-compat</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-protocol</artifactId>
      <version>${hbase.version}</version>
    </dependency>

我没有运气清理包裹。我需要的主要内容是用于设置RDD的classOf(TableInputFormat)。我怀疑我错过了我的pom文件中的依赖项,但无法弄清楚哪一个。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:1)

TableInputFormat位于org.apache.hadoop.hbase.mapreduce packacge中,它是hbase-server工件的一部分,因此您需要将其添加为依赖项,例如@ xgdgsc注释:

<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-server</artifactId>
    <version>${hbase.version}</version>
</dependency>

答案 1 :(得分:0)

火花1.0及以上的

将所有hbase jar放入spark / assembly / lib或spark / core / lib目录。希望你有船坞自动化所有这一切。

a)对于CDH版本,关联的hbase jar通常在/usr/lib/hbase/*.jar下,这是用于修正jar的符号链接。

b)阅读http://www.abcn.net/2014/07/lighting-spark-with-hbase-full-edition.html

的好文章