Question

我将avro数据存在于hdfs文件系统中。我想用python map reduce读取那些avro数据。我知道如果我必须使用java，那么我们可以使用AvroMapper和AvroReducer但是使用python我不太确定。

这里的任何人都对此有所帮助，或者任何建议都会有很大的帮助。

提前致谢。

Answer 1

您可以使用Pydoop＆gt; = 1.0.0-rc2执行此操作。以下是颜色计数示例的样子：

from collections import Counter

import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pp
from pydoop.avrolib import AvroContext

class Mapper(api.Mapper):

    def map(self, ctx):
        user = ctx.value
        color = user['favorite_color']
        if color is not None:
            ctx.emit(user['office'], Counter({color: 1}))

class Reducer(api.Reducer):

    def reduce(self, ctx):
        s = sum(ctx.values, Counter())
        ctx.emit('', {'office': ctx.key, 'counts': s})

def __main__():
    factory = pp.Factory(mapper_class=Mapper, reducer_class=Reducer)
    pp.run_task(factory, private_encoding=True, context_class=AvroContext)

运行应用程序：

export STATS_SCHEMA=$(cat stats.avsc)
pydoop submit \
  -D pydoop.mapreduce.avro.value.output.schema="${STATS_SCHEMA}" \
  --avro-input v --avro-output v \
  --upload-file-to-cache color_count.py --mrv2 \
  color_count input output

有关详细信息，请参阅Pydoop Avro docs。

使用Python map减少Avro数据序列化

1 个答案: