Hadoop之上的流式框架支持ORC,镶木地板文件格式

时间:2014-04-03 18:52:29

标签: hadoop mapreduce hive hadoop-streaming

Hadoop流媒体是否支持ORC和镶木地板等新的柱状存储格式,或者Hadoop上是否有框架可以让您阅读这些格式?

2 个答案:

答案 0 :(得分:1)

您可以使用HCatalog读取ORC文件。 https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

它为您提供了读取ORC,文本,序列,RC文件的抽象。我不确定那里是否有木地板的支撑。尽管如此,如果这听起来不合理,您可以使用Hive代码库中的ORC记录阅读器来读取ORC文件(ORCInputFormat,ORCOutputFormat)。

答案 1 :(得分:1)

相当古老的消息,但我前段时间对此挣扎。我没有为此找到任何解决方案,因此,我制作了一组输入/输出格式,将avro和镶木地板文件转换为纯文本和json。它可以在http://github.com/whale2/iow-hadoop-streaming找到。没有ORC支持,但支持Avro和Parquet。 希望这会有所帮助。