我是Apache Pig的新手。
我不确定Pig上有哪种输入文件格式。
例如,Impala上提供了Parquet,Text,Avro,RCFile和SequenceFile。 (见:How Impala Works with Hadoop File Formats)
我猜文本文件没问题,因为数据加载示例正在使用.log
文件。 (见:Getting Started)
我还找到了AvroStorage page,因此可以使用Avro。
那么,Parquet,RCFile,SequenceFile等等呢?或者,我错了吗?
请告诉我,谢谢。
答案 0 :(得分:0)
使用built-in functions的1.4 version,您可以阅读以下内容:
对于某些加载器使用gzip和bzip compression support。
您可以使用HCatalog从任何其他Hadoop组件中读取数据。
piggybank库中的许多其他加载器。
否则,您可以自己编写loader。