在HBase单元中保存多个版本

时间:2015-01-31 16:40:37

标签: java hadoop mapreduce hbase apache-zookeeper

我是HBase的新手。我试图在HBase的单元格中保存多个版本,但我只是获取最后保存的值。我尝试了以下两个命令来检索多个已保存的版本: get 'Dummy1','abc', {COLUMN=>'backward:first', VERSIONS=>12}scan 'Dummy1', {VERSIONS=>12} 两者都返回输出如下:

ROW                   COLUMN+CELL                                               
 abc                  column=backward:first, timestamp=1422722312845, value=rrb 
在0.0150秒内

1行 输入文件如下:

abc xyz kkk
abc qwe asd
abc anf rrb

HBase中表创建的代码如下:

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HBaseAdmin;

public class HBaseTableCreator {

  public static void main(String[] args) throws Exception {

      HBaseConfiguration conf = new HBaseConfiguration();
      conf.set("hbase.master","localhost:60000");

      HBaseAdmin hbase = new HBaseAdmin(conf);
      HTableDescriptor desc = new HTableDescriptor("Dummy");
      HColumnDescriptor meta = new HColumnDescriptor("backward".getBytes());
      meta.setMaxVersions(Integer.MAX_VALUE);
      HColumnDescriptor prefix = new HColumnDescriptor("forward".getBytes());
      prefix.setMaxVersions(Integer.MAX_VALUE);
      desc.addFamily(meta);
      desc.addFamily(prefix);
      hbase.createTable(desc);

 }

}

转储HBase中的数据的代码如下: 主类:     import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;


public class TestMain {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException 
    {
        // TODO Auto-generated method stub
        Configuration conf=new Configuration();
        //HTable hTable = new HTable(conf, args[3]);  
        String[] otherArgs=new GenericOptionsParser(conf,args).getRemainingArgs();
        if(otherArgs.length!=2)
        {
            System.err.println("Usage: wordcount <in> <out>");
            System.exit(2);
        }
        Job job=new Job(conf,"HBase dummy dump");
        job.setJarByClass(TestMain.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class); 
        job.setMapperClass(TestMapper.class);
        TableMapReduceUtil.initTableReducerJob("Dummy", null, job);
        //job.setOutputKeyClass(NullWritable.class);
        //job.setOutputValueClass(Text.class);
        job.setNumReduceTasks(0);
        //job.setOutputKeyClass(Text.class);
        //job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        //HFileOutputFormat.configureIncrementalLoad(job, hTable);
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

Mapper类:

import java.io.IOException;

import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Mapper;

public class TestMapper extends Mapper <LongWritable, Text, Text, Put>{
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { 

        String line=value.toString();
        String[] l=line.split("\\s+");
        for(int i=1;i<l.length;i++)
        {
            Put HPut = new Put(l[0].getBytes());
            HPut.add("backward".getBytes(),"first".getBytes(),l[i].getBytes());
            context.write(new Text(l[0]),HPut);
        }
    }
}

请告诉我哪里出错了。

1 个答案:

答案 0 :(得分:1)

您的问题是您的写入被自动批处理并且在作业结束时(表关闭时)刷新,可能导致每个put操作具有完全相同的时间戳,并且他们&#39 ;基本上覆盖自己(编写一个与另一个版本具有相同时间戳的版本会覆盖该版本而不是插入新版本。)

解决问题的第一种方法可能是用Put HPut = new Put(l[0].getBytes(), System.currentTimeMillis());自己提供时间戳,但是你可能会遇到同样的问题,因为操作速度很快,很多看跌期权都会有相同的时间戳。 / p>

这就是我要做的就是克服这个问题:

1-停止使用TableMapReduceUtil.initTableReducerJob以支持处理对hbase表的写入的自定义reducer。

2-修改映射器以将每行的所有值写入上下文,以便将它们分组为iterable并传递给reducer(即:abc, xyz kkk qwe asd anf rrb

3-实现我自己的reducer有点像伪代码

Define myHTable
setup() {
  Instantiate myHtable
  Disable myHtable autoflush to prevent puts from being automatically flushed
  Set myHtable write buffer to at least 2MB
}
reduce(rowkey, results) {
  baseTimestamp = current time in milliseconds
  Iterate results {
     Instantiate put with rowkey ++baseTimestamp
     Add result to put
     Send put to myHTable
  }
}
cleanup() {
  Flush commits for myHTable
  Close myHTable
}

这样,每个版本之间总会有1ms,唯一需要注意的是,如果你有大量的版本并多次运行相同的工作,新的时间戳工作可以重叠前一个时间戳,如果你预计不到30k版本你不应该担心它,因为每个工作距离下一个工作至少30秒......

无论如何,要注意不建议有超过一百个版本(http://hbase.apache.org/book.html#versions),如果你需要更多版本,那么选择一个更高的方法(一个包含密钥+时间戳),根本没有版本。

很抱歉奇怪的格式化,这是唯一可以很好地显示伪代码的方法。