应用错误收集

如何将大型mysql转储导入hadoop？

时间：2012-11-13 14:34:48

标签： mysql hadoop sqoop

我需要将维基百科转储（mysql表，解压缩文件大约需要50gb）导入Hadoop（hbase）。现在我首先将dump加载到mysql中，然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间 - 大约4-7天。是否可以直接将mysql转储加载到hadoop（通过一些转储文件解析器或类似的东西）？

2 个答案:

答案 0 :(得分：2)

据我记忆 - MySQL Dumps几乎完全是插入语句集。您可以在映射器中解析它们并按原样处理...如果您只有几个表，那么在Java中进行硬编码解析应该是微不足道的。

答案 1 :(得分：1)

使用sqoop。使用map reduce作业将mysql数据导入HDFS的工具。

很方便。

如何将LARGE sql文件导入mysql表
如何将大型mysql转储导入hadoop？
将大型.sql文件导入MySQL
将HDFS数据文件导入mysql
如何将大型csv导入mysql表？
将大型sql dump导入Mysql
将大量MySQL数据导入Hadoop
如何将存储过程导入HDFS
如何将非常大的sql文件导入mysql？
如何将大型数据库导入本地数据库

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？