使用Spark-HBase进行HBase读取Hortonworks连接器需要很长时间

时间:2017-03-02 11:07:58

标签: apache-spark hbase spark-dataframe

使用HortonWorks Spark HBase Connector读取和写入我的HBase表。

在阅读过程中,根据以下片段,读取时间为4分钟,为230万条记录。 我使用RowKey作为过滤记录的主要列。

总记录数约为350万。

我们正在使用3节点群集| 3个区域服务器| 3个区域服务器的11个区域。

val catalog = getUDMHistoryTableCatalog()
val HistoryHBaseDF = sqlContext.read
  .options(Map(HBaseTableCatalog.tableCatalog -> catalog))
  .format("org.apache.spark.sql.execution.datasources.hbase")
  .load().filter(substring(col("key"),0,4) === "017-")

0 个答案:

没有答案