是否可以将Avro与Hadoop 0.20一起使用?

时间:2010-06-27 19:19:04

标签: api hadoop hdfs

我有兴趣使用Avro来保存和读取Hadoop HDFS中的文件,我在Hadoop问题跟踪器中看到了一些关于实现Avro支持的Jira,但是没有关于如何在Hadoop中启用Avro支持的示例。此外,我还不完全确定目前的0.20支持Avro,因为一些Jira的收盘价为0.21。是否有可能获得最新的0.21并以某种方式结束Avro并使用它?

2 个答案:

答案 0 :(得分:3)

此博客文章显示了在Map / Reduce作业中使用Avro的一些示例代码:http://www.datasalt.com/2011/07/hadoop-avro/目前没有很多示例。在这里,您将找到有关如何配置标准Map / Reduce作业的一些代码片段,以便将Avro用作输入或输出格式或两者。还有一些技巧,如如何编写自定义GroupComparator进行二次排序或如何指定自定义分区程序(我在其他地方找不到的东西)。

答案 1 :(得分:0)

我正在使用Avro和Hadoop 0.20(Amazon Elastic MapReduce)。您可以通过在类路径中包含Avro jar来启用Avro支持,然后扩展Avro提供的类以实现Map和Reduce任务。

请参阅http://avro.apache.org/docs/1.4.0/api/java/index.html,尤其是http://avro.apache.org/docs/1.4.0/api/java/org/apache/avro/mapred/package-frame.html上的mapred包。