hadoop - 使用Hadoop进行反规范化

我目前正在开发一个使用Hadoop的项目。我们正处于项目的开始阶段。

首先，我有约50个关系数据库表。我们提取它们然后导出HDFS。现在，我们想要将参考数据去规范化为“大表”（只有3-4个文件）。我想我会用map reduce来完成这项工作。我知道如何用小桌子来做这件事，但有大桌子......

例如，我有一个包含数百万条目的“Ticket”表，并且有一个由15亿条目组成的表“Lign”的连接。我必须对它们进行反规范化。

我的问题是，是否有任何方法可以应用或采用最佳做法？

提前致谢， Angelik