如何在单独的Java程序中读取pig输出

时间:2013-10-10 00:25:13

标签: java hadoop apache-pig

我有一些猪输出文件,想要在另一台机器上读取它们(没有安装hadoop)。我只想读取一个制表符分隔的纯文本行并将其解析为一个java对象。我猜我们应该能够使用pig.jar作为依赖并能够阅读它。我找不到相关文档。我认为可以使用this类吗?我们如何提供架构呢。

2 个答案:

答案 0 :(得分:1)

我建议您以Avro序列化格式存储数据。它与Pig无关,它允许处理您描述的复杂数据结构(因此您不需要编写自己的解析器)。有关示例,请参阅this article

答案 1 :(得分:0)

您的猪输出文件只是文本文件,对吧?那你就不需要任何猪或胡萝卜罐了。 上次和Pig一起工作的时候是亚马逊的EMR平台,输出文件藏在一个s3桶里。它们只是文本文件,标准java可以读取文件。

您引用的课程是从某种文本格式读取猪。

您是否要求库将猪数据模型解析为java对象?即元组和文本的文本表示袋子等?如果是这样,那么自己写它可能更容易。这是一个非常简单的数据模型,只有3个数据类型..