使用HortonWorks Spark HBase Connector读取和写入我的HBase表。
在阅读过程中,根据以下片段,读取时间为4分钟,为230万条记录。 我使用RowKey作为过滤记录的主要列。
总记录数约为350万。
我们正在使用3节点群集| 3个区域服务器| 3个区域服务器的11个区域。
val catalog = getUDMHistoryTableCatalog()
val HistoryHBaseDF = sqlContext.read
.options(Map(HBaseTableCatalog.tableCatalog -> catalog))
.format("org.apache.spark.sql.execution.datasources.hbase")
.load().filter(substring(col("key"),0,4) === "017-")