我阅读了spark和hbase的文档:
http://hbase.apache.org/book.html#spark
我可以看到HBase的最后一个稳定版本是1.1.2,但我也看到apidocs版本为2.0.0-SNAPSHOT且apidoc of spark为空。
我很困惑,为什么apidocs和HBase版本不匹配?
我的目标是使用Spark和HBase(bulkGet,bulkPut..etc)。我如何知道这些功能已经在哪个HBase版本中实现?
如果有人对此有补充文件,那就太棒了。
我在hbase-0.98.13-hadoop1。
答案 0 :(得分:0)
截至目前,Spark并没有像hase一样提供HBase api,你已经在spark-default.conf文件中手动将hbase jar放入spark的classpath中。
见下面的链接,它有关于如何连接到HBase的完整信息:
http://www.abcn.net/2014/07/lighting-spark-with-hbase-full-edition.html
答案 1 :(得分:0)
以下是Spark集成到HBase的主要JIRA票证,目标版本 2.0.0 仍在开发中,需要等待发布,或者自己从源代码构建版本
https://issues.apache.org/jira/browse/HBASE-13992
在故障单中,有几个文档链接。
如果您只想从Spark RDD访问HBase,您可以将其视为普通的Hadoop数据源,基于HBase特定的TableInputFormat和TableOutputFormat