Apache Pig上有哪种文件格式?

时间:2017-01-20 06:43:15

标签: apache hadoop apache-pig

我是Apache Pig的新手。

我不确定Pig上有哪种输入文件格式。

例如,Impala上提供了Parquet,Text,Avro,RCFile和SequenceFile。 (见:How Impala Works with Hadoop File Formats

我猜文本文件没问题,因为数据加载示例正在使用.log文件。 (见:Getting Started) 我还找到了AvroStorage page,因此可以使用Avro。

那么,Parquet,RCFile,SequenceFile等等呢?或者,我错了吗?

请告诉我,谢谢。

1 个答案:

答案 0 :(得分:0)

使用built-in functions1.4 version,您可以阅读以下内容:

  1. BinStorage
  2. JsonLoader,JsonStorage
  3. PigDump
  4. PigStorage
  5. TextLoader
  6. HBaseStorage
  7. AvroStorage
  8. TrevniStorage
  9. AccumuloStorage
  10. OrcStorage
  11. 对于某些加载器使用gzip和bzip compression support

    您可以使用HCatalog从任何其他Hadoop组件中读取数据。

    piggybank库中的许多其他加载器。

    否则,您可以自己编写loader