如何在hadoop级联中加载固定宽度的文件

时间:2015-01-28 13:03:09

标签: hadoop cascading

如何在hadoop级联中加载固定宽度的文件,还是应该使用任何外部UDF根据字段的特殊性加载文件? 我们应该如何在hadoop级联中调用外部UDF?

1 个答案:

答案 0 :(得分:0)

我知道没有固定宽度的水龙头。定制水龙头很难实现(相信我,我知道)。所以我们不要担心。

最简单的方法是将TextLineScheme与Tap一起使用。输入管道应该做的第一件事是转到自定义Function。你的输入方案是一个有两列的元组:偏移和线。您想使用该行(忽略偏移量)。解析列并返回具有实际数据定义的Fields的新TupleEntry的函数。当你展开BaseOperation时,传递你的函数将返回super(new Fields("FirstName", "LastName", "etc));

完成此操作后,将函数的输出管道传递给下游Flow的其余部分。