我有一些猪输出文件,想要在另一台机器上读取它们(没有安装hadoop)。我只想读取一个制表符分隔的纯文本行并将其解析为一个java对象。我猜我们应该能够使用pig.jar作为依赖并能够阅读它。我找不到相关文档。我认为可以使用this类吗?我们如何提供架构呢。
答案 0 :(得分:1)
我建议您以Avro序列化格式存储数据。它与Pig无关,它允许处理您描述的复杂数据结构(因此您不需要编写自己的解析器)。有关示例,请参阅this article。
答案 1 :(得分:0)
您的猪输出文件只是文本文件,对吧?那你就不需要任何猪或胡萝卜罐了。 上次和Pig一起工作的时候是亚马逊的EMR平台,输出文件藏在一个s3桶里。它们只是文本文件,标准java可以读取文件。
您引用的课程是从某种文本格式读取猪。
您是否要求库将猪数据模型解析为java对象?即元组和文本的文本表示袋子等?如果是这样,那么自己写它可能更容易。这是一个非常简单的数据模型,只有3个数据类型..