java - 如何在单独的Java程序中读取pig输出

时间：2013-10-10 00:25:13

标签： java hadoop apache-pig

我有一些猪输出文件，想要在另一台机器上读取它们（没有安装hadoop）。我只想读取一个制表符分隔的纯文本行并将其解析为一个java对象。我猜我们应该能够使用pig.jar作为依赖并能够阅读它。我找不到相关文档。我认为可以使用this类吗？我们如何提供架构呢。

答案 0 :(得分：1)

我建议您以Avro序列化格式存储数据。它与Pig无关，它允许处理您描述的复杂数据结构（因此您不需要编写自己的解析器）。有关示例，请参阅this article。

答案 1 :(得分：0)

您的猪输出文件只是文本文件，对吧？那你就不需要任何猪或胡萝卜罐了。上次和Pig一起工作的时候是亚马逊的EMR平台，输出文件藏在一个s3桶里。它们只是文本文件，标准java可以读取文件。

您引用的课程是从某种文本格式读取猪。

您是否要求库将猪数据模型解析为java对象？即元组和文本的文本表示袋子等？如果是这样，那么自己写它可能更容易。这是一个非常简单的数据模型，只有3个数据类型..