我需要在更新到新版本之前备份HBase表。我决定使用标准Export工具将表导出到hdfs,然后将其移动到本地文件系统。由于某种原因,导出的表格比原始表格大4倍:
hdfs dfs -du -h
1.4T backup-my-table
hdfs dfs -du -h /hbase/data/default/
417G my-table
可能是什么原因?它与压缩有什么关系吗?
P.S。也许我的备份方式很重要。首先我从目标表中创建snapshot,然后cloned将其复制到一个副本表,然后从这个复制的表中删除不必要的列族(所以我希望结果大小小2倍),然后我在此副本表上运行导出工具。
未来访问者的更新:这是使用压缩导出表的正确命令
./hbase org.apache.hadoop.hbase.mapreduce.Export \
-Dmapreduce.output.fileoutputformat.compress=true \
-Dmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec \
-Dmapreduce.output.fileoutputformat.compress.type=BLOCK \
-Dhbase.client.scanner.caching=200 \
table-to-export export-dir
答案 0 :(得分:3)
可以使用SNAPPY
或其他压缩技术进行压缩。像这样
create 't1', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }
$ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy
如果你深入了解导出命令(source),那么你会发现
请参阅下面可能会大幅缩小尺寸的属性..
mapreduce.output.fileoutputformat.compress =真
mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.GzipCodec
mapreduce.output.fileoutputformat.compress.type = BLOCK
/*
* @param errorMsg Error message. Can be null.
*/
private static void usage(final String errorMsg) {
if (errorMsg != null && errorMsg.length() > 0) {
System.err.println("ERROR: " + errorMsg);
}
System.err.println("Usage: Export [-D <property=value>]* <tablename> <outputdir> [<versions> " +
"[<starttime> [<endtime>]] [^[regex pattern] or [Prefix] to filter]]\n");
System.err.println(" Note: -D properties will be applied to the conf used. ");
System.err.println(" For example: ");
System.err.println(" -D mapreduce.output.fileoutputformat.compress=true");
System.err.println(" -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec");
System.err.println(" -D mapreduce.output.fileoutputformat.compress.type=BLOCK");
System.err.println(" Additionally, the following SCAN properties can be specified");
System.err.println(" to control/limit what is exported..");
System.err.println(" -D " + TableInputFormat.SCAN_COLUMN_FAMILY + "=<familyName>");
System.err.println(" -D " + RAW_SCAN + "=true");
System.err.println(" -D " + TableInputFormat.SCAN_ROW_START + "=<ROWSTART>");
System.err.println(" -D " + TableInputFormat.SCAN_ROW_STOP + "=<ROWSTOP>");
System.err.println(" -D " + JOB_NAME_CONF_KEY
+ "=jobName - use the specified mapreduce job name for the export");
System.err.println("For performance consider the following properties:\n"
+ " -Dhbase.client.scanner.caching=100\n"
+ " -Dmapreduce.map.speculative=false\n"
+ " -Dmapreduce.reduce.speculative=false");
System.err.println("For tables with very wide rows consider setting the batch size as below:\n"
+ " -D" + EXPORT_BATCHING + "=10");
}
getExportFilter
,这可能对您的情况有用,可以缩小导出范围。 private static Filter getExportFilter(String[] args) {
138 Filter exportFilter = null;
139 String filterCriteria = (args.length > 5) ? args[5]: null;
140 if (filterCriteria == null) return null;
141 if (filterCriteria.startsWith("^")) {
142 String regexPattern = filterCriteria.substring(1, filterCriteria.length());
143 exportFilter = new RowFilter(CompareOp.EQUAL, new RegexStringComparator(regexPattern));
144 } else {
145 exportFilter = new PrefixFilter(Bytes.toBytesBinary(filterCriteria));
146 }
147 return exportFilter;
148 }