将数据从MySql DB导入MapR DB / HBase的选项

时间:2016-08-30 05:51:24

标签: hadoop mapreduce hbase sqoop mapr

我在MySql中有一个包含大约24000000条记录的表。我需要一种方法将此数据导入到具有多个列族的MapR DB中的表中。我最初选择Sqoop作为导入数据的工具,但后来发现我不能使用Sqoop直接导入数据,因为Sqoop目前还不支持多列族导入。 我已经使用MySql数据库中的Sqoop在MapR FS中填充了数据。 我有什么选择将这些数据从MapR FS导入到具有3列系列的MapR DB表中? 看来批量导入,我有两个选择:

  • ImportTSV工具:这可能要求源数据采用TSV格式。但我使用Sqoop从MySql导入MapR FS的数据似乎是CSV格式。这种方法的标准解决方案是什么?
  • 编写自定义Map Reduce程序,将MapR FS中的数据转换为HFile并将其加载到MapR DB中。

我只是想确保这些是加载数据的唯一两种选择。考虑到这样的要求在任何系统中都是非常基本的,这似乎有点限制。 如果要实现自定义Map Reduce,那么示例或工作示例将非常有用。

1 个答案:

答案 0 :(得分:0)

使用HBaseStorageHandler创建指向MapRDB的Hive表。您可以使用sqoop导入到hive表。

如果您已经下载了MapRFS数据。使用hive load命令将数据加载到MapRDB。