如何将大型mysql转储导入hadoop?

时间:2012-11-13 14:34:48

标签: mysql hadoop sqoop

我需要将维基百科转储(mysql表,解压缩文件大约需要50gb)导入Hadoop(hbase)。现在我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间 - 大约4-7天。是否可以直接将mysql转储加载到hadoop(通过一些转储文件解析器或类似的东西)?

2 个答案:

答案 0 :(得分:2)

据我记忆 - MySQL Dumps几乎完全是插入语句集。您可以在映射器中解析它们并按原样处理...如果您只有几个表,那么在Java中进行硬编码解析应该是微不足道的。

答案 1 :(得分:1)

使用sqoop。使用map reduce作业将mysql数据导入HDFS的工具。

很方便。