我需要将维基百科转储(mysql表,解压缩文件大约需要50gb)导入Hadoop(hbase)。现在我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间 - 大约4-7天。是否可以直接将mysql转储加载到hadoop(通过一些转储文件解析器或类似的东西)?
答案 0 :(得分:2)
据我记忆 - MySQL Dumps几乎完全是插入语句集。您可以在映射器中解析它们并按原样处理...如果您只有几个表,那么在Java中进行硬编码解析应该是微不足道的。
答案 1 :(得分:1)
使用sqoop。使用map reduce作业将mysql数据导入HDFS的工具。
很方便。