如何有效地批量导入具有数千列的表?

时间:2019-04-30 01:03:02

标签: amazon-s3 mapreduce hbase amazon-emr bulk-load

我正在尝试将MATLAB中生成的大表导入AWS EMR中的HBase。我已经将MATLAB表输出到CSV文件,并且我了解具有最少列的表可以使用以下内容:

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator =“,” -Dimporttsv.columns = HBASE_ROW_KEY,cf:1,cf:2,cf:3'name's3n:// folder / file.csv

但是,这对于具有数千个列的数据集效率不高,因为它要求我为每个列提供列名。有没有更好/更有效的方式来导入我的数据?

0 个答案:

没有答案