时间:2015-08-20 20:52:03

我在Hadoop上运行的Storm拓扑配置为伪分布式模式。拓扑包含一个必须将数据写入Hbase的螺栓。 我的第一个用于测试目的的方法是在我的bolt execute方法内创建(和关闭)连接和写入数据。但是看起来我的本地机器上没有那么多资源来处理所有进入HBase的请求。在大约30个成功处理请求后,我在Storm工作日志中看到以下内容:

o.a.z.ClientCnxn [INFO] Opening socket connection to server localhost/ Will not attempt to authenticate using SASL (unknown error)
o.a.z.ClientCnxn [INFO] Socket connection established to localhost/, initiating session
o.a.z.ClientCnxn [INFO] Unable to read additional data from server sessionid 0x0, likely server has closed socket, closing socket connection and attempting reconnect
o.a.h.h.z.RecoverableZooKeeper [WARN] Possibly transient ZooKeeper, quorum=localhost:2181, exception=org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/hbaseid

我的想法是通过为每个螺栓实例创建单个连接来减少与HBase的连接数 - 在prepare方法中打开连接并在cleanup关闭它。但是根据文档cleanup,不能保证在分布式模式下调用。

在此之后,我发现了Storm与Hbase合作的框架 - storm-hbase 。不幸的是,几乎没有关于它的信息,只是README在它的github回购。

  1. 所以我的第一个问题是使用storm-hbase for Storm-Hbase 整合是好的解决方案?什么是最好的方法呢?
  2. 此外,我需要能够从HBase表中删除单元格。但我在storm-hbase doc中没有找到任何关于它的内容。

    1. 有没有可能用storm-hbase做到这一点?或者回到 上一个问题,还有另一种方法可以做到这一切吗?
    2. 提前致谢!

最重要的是在prepare方法中为每个螺栓实例创建一个HConnection ,然后重新使用该连接螺栓的寿命!

Configuration config = HBaseConfiguration.create();
connection = HConnectionManager.createConnection(config);


// single put method
private HConnection connection;

public void prepare(java.util.Map stormConf, backtype.storm.task.TopologyContext context) {
   Configuration config = HBaseConfiguration.create();
   connection = HConnectionManager.createConnection(config);

public void execute(Tuple tuple, BasicOutputCollector collector) {
   try {
      // do stuff
      // call putFruit
   } catch (Exception e) {
      LOG.error("bolt error", e);

// example put method you'd call from within execute somewhere
private void putFruit(String key, FruitResult data) throws IOException {
   HTableInterface table = connection.getTable(Constants.TABLE_FRUIT);
   try {
     Put p = new Put(key.getBytes());
        long ts = data.getTimestamp();
        p.add(Constants.FRUIT_FAMILY, Constants.COLOR, ts, data.getColor().getBytes());
        p.add(Constants.FRUIT_FAMILY, Constants.SIZE, ts, data.getSize().getBytes());
        p.add(Constants.FRUIT_FAMILY, Constants.WEIGHT, ts, Bytes.toBytes(data.getWeight()));
   } finally {
      try {
      } finally {
         // nothing


为了批量处理PUT,您需要使用HConnection打开一个表并保持打开状态。您还需要将Auto Flush设置为false。这意味着该表将自动缓冲请求,直到它到达&#34; hbase.client.write.buffer&#34;大小(默认为2097152)。

// batch put method
private static boolean AUTO_FLUSH = false;
private static boolean CLEAR_BUFFER_ON_FAIL = false;
private HConnection connection;
private HTableInterface fruitTable;

public void prepare(java.util.Map stormConf, backtype.storm.task.TopologyContext context) {
   Configuration config = HBaseConfiguration.create();
   connection = HConnectionManager.createConnection(config);
   fruitTable = connection.getTable(Constants.TABLE_FRUIT);
   fruitTable.setAutoFlush(AUTO_FLUSH, CLEAR_BUFFER_ON_FAIL);

public void execute(Tuple tuple, BasicOutputCollector collector) {
   try {
      // do stuff
      // call putFruit
   } catch (Exception e) {
      LOG.error("bolt error", e);

// example put method you'd call from within execute somewhere
private void putFruit(String key, FruitResult data) throws IOException {
   Put p = new Put(key.getBytes());
   long ts = data.getTimestamp();
   p.add(Constants.FRUIT_FAMILY, Constants.COLOR, ts, data.getColor().getBytes());
   p.add(Constants.FRUIT_FAMILY, Constants.SIZE, ts, data.getSize().getBytes());
   p.add(Constants.FRUIT_FAMILY, Constants.WEIGHT, ts, Bytes.toBytes(data.getWeight()));



  • 要进行删除,只需执行new Delete(key);而非Put。


答案 1 :(得分:1)


这是:有一个单独的类作为线程运行,它将为您执行hbase / mysql / elasticsearch / hdfs / etc ...的请求。出于性能原因,应该分批进行。

  1. 有一个全局列表来处理并发操作和执行程序服务:

  2. 有一个会为你插入文档的线程类

    private transient BlockingQueue<Tuple> insertQueue;
    private transient ExecutorService theExecutor;
    private transient Future<?> publisherFuture;
  3. 初始化线程类和prepare methood中的列表

    private class Publisher implements Runnable {
    public void run() {
               long sendBatchTs = System.currentTimeMillis();
              while (true){
                  if(insertQueue.size >100){ // 100 tuples per batch
                         List<Tuple> batchQueue = new ArrayList<>(100);
                         insertQueue.drainTo(batchQueue, 100);
                         // write code to insert the 100 documents
                        sendBatchTs = System.currentTimeMillis();
                  else if (System.currentTimeMillis() - sendBatchTs > 5000){
                  // to prevent tuple timeout
                         int listSize = batchQueue.size();
                          List<Tuple> batchQueue = new ArrayList<>(listSize);
                         insertQueue.drainTo(batchQueue, listSize);
                         // write code to insert the 100 documents
                        sendBatchTs = System.currentTimeMillis();
     // your code
  4. 关闭清理时的连接

      public void prepare (final Map _conf, final TopologyContext _context , final OutputCollector _collector) {
    // open your connection
       insertQueue = new LinkedBlockingQueue<>();
       theExecutor = Executors.newSingleThreadExecutor();
       publisherFuture = theExecutor.submit(new Publisher());
  5. 在执行方法

    public void cleanup() {
       // close your connection