使用Hadoop进行反规范化

时间:2014-03-19 13:32:31

标签: hadoop mapreduce relational-database denormalization

我目前正在开发一个使用Hadoop的项目。我们正处于项目的开始阶段。

首先,我有约50个关系数据库表。我们提取它们然后导出HDFS。现在,我们想要将参考数据去规范化为“大表”(只有3-4个文件)。我想我会用map reduce来完成这项工作。我知道如何用小桌子来做这件事,但有大桌子......

例如,我有一个包含数百万条目的“Ticket”表,并且有一个由15亿条目组成的表“Lign”的连接。我必须对它们进行反规范化。

我的问题是,是否有任何方法可以应用或采用最佳做法?

提前致谢, Angelik

1 个答案:

答案 0 :(得分:0)

考虑到Hadoop集群上当然可用的其他工具,编写连接以在MR中执行非规范化将是一个耗时的过程,可能不值得付出努力。

由于您已经拥有表的DDL,并且数据是结构化的,因此我建议的最佳方法是使用Hive而不是原始MapReduce。你会为自己节省很多时间和问题。

相关问题