应用错误收集

使用HortonWorks Spark HBase Connector读取和写入我的HBase表。

在阅读过程中，根据以下片段，读取时间为4分钟，为230万条记录。我使用RowKey作为过滤记录的主要列。

总记录数约为350万。

我们正在使用3节点群集| 3个区域服务器| 3个区域服务器的11个区域。

val catalog = getUDMHistoryTableCatalog()
val HistoryHBaseDF = sqlContext.read
  .options(Map(HBaseTableCatalog.tableCatalog -> catalog))
  .format("org.apache.spark.sql.execution.datasources.hbase")
  .load().filter(substring(col("key"),0,4) === "017-")

使用Spark-HBase进行HBase读取Hortonworks连接器需要很长时间

0 个答案: