应用错误收集

使用Hadoop级联更改架构

时间：2012-08-06 11:13:17

标签： hadoop cascading

我正在试图弄清楚如何对其架构随时间累加的数据存档使用级联。为什么我的意思是添加剂是例如它将从3列开始。然后在下一个版本中它可能有5列。这些列遵循标准CSV布局。我的理解是，如果我将模式指定为5列长并且旧模式仅为3，则级联将失败。

有没有办法告诉级联填写缺少的列？像默认= null？

2 个答案:

答案 0 :(得分：1)

事实证明，在分隔文本的情况下，该方案有一个特殊的构造函数。这里的构造函数Cascading JavaDoc表示我们可以调整解析的严格性。如果你说strict是false，则Cascading将加载数据，并将null附加到末尾。对此的困惑似乎是可以理解的，因为在cascading user group中有两个关于如何执行此操作的主题。

答案 1 :(得分：0)

而不是对您的架构进行硬编码，您可以对其进行配置驱动。

我的意思是您可以在属性文件/ xml文件中定义列列表。

这样您就不需要经常更改代码了。

例如：

列：cloumn1，column2，column3

您可以直接将该String Array传递给Fields构造函数。

事实上，我已经在我当前的项目中成功实现了这一点。