使用Hadoop级联更改架构

时间:2012-08-06 11:13:17

标签: hadoop cascading

我正在试图弄清楚如何对其架构随时间累加的数据存档使用级联。为什么我的意思是添加剂是例如它将从3列开始。然后在下一个版本中它可能有5列。这些列遵循标准CSV布局。我的理解是,如果我将模式指定为5列长并且旧模式仅为3,则级联将失败。

有没有办法告诉级联填写缺少的列?像默认= null?

2 个答案:

答案 0 :(得分:1)

事实证明,在分隔文本的情况下,该方案有一个特殊的构造函数。这里的构造函数Cascading JavaDoc表示我们可以调整解析的严格性。如果你说strict是false,则Cascading将加载数据,并将null附加到末尾。对此的困惑似乎是可以理解的,因为在cascading user group中有两个关于如何执行此操作的主题。

答案 1 :(得分:0)

而不是对您的架构进行硬编码,您可以对其进行配置驱动。

我的意思是您可以在属性文件/ xml文件中定义列列表。

这样您就不需要经常更改代码了。

例如:

列:cloumn1,column2,column3

您可以直接将该String Array传递给Fields构造函数。

事实上,我已经在我当前的项目中成功实现了这一点。