是否有可能以一种处理多行作为单个输入元组的方式使用Pig流(StreamToPig)?

时间:2012-03-28 14:54:33

标签: hadoop mapreduce apache-pig

我通过一个可执行文件在pig脚本中传输数据,该可执行文件为每个输入的I行返回一个xml片段。那个xml片段恰好跨越了多行,我无法控制可执行文件的输出到

关于Use Hadoop Pig to load data from text file w/ each record on multiple lines?,答案是建议编写自定义记录阅读器。问题是,如果要实现从文件读取的LoadFunc,但是为了能够使用流式传输,它必须实现StreamToPig。 StreamToPig允许您根据我的理解一次只能读取一行

有谁知道如何处理这种情况?

1 个答案:

答案 0 :(得分:0)

如果您完全确定,那么可以选择在内部对流媒体解决方案进行管理。也就是说,你自己建立元组,当你点击任何你想要的大小时,你进行处理并返回一个值。一般来说,猪的evalfuncs有这个问题。