我将avro数据存在于hdfs文件系统中。我想用python map reduce读取那些avro数据。我知道如果我必须使用java,那么我们可以使用AvroMapper和AvroReducer但是使用python我不太确定。
这里的任何人都对此有所帮助,或者任何建议都会有很大的帮助。
提前致谢。
答案 0 :(得分:0)
您可以使用Pydoop> = 1.0.0-rc2执行此操作。以下是颜色计数示例的样子:
from collections import Counter
import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pp
from pydoop.avrolib import AvroContext
class Mapper(api.Mapper):
def map(self, ctx):
user = ctx.value
color = user['favorite_color']
if color is not None:
ctx.emit(user['office'], Counter({color: 1}))
class Reducer(api.Reducer):
def reduce(self, ctx):
s = sum(ctx.values, Counter())
ctx.emit('', {'office': ctx.key, 'counts': s})
def __main__():
factory = pp.Factory(mapper_class=Mapper, reducer_class=Reducer)
pp.run_task(factory, private_encoding=True, context_class=AvroContext)
运行应用程序:
export STATS_SCHEMA=$(cat stats.avsc)
pydoop submit \
-D pydoop.mapreduce.avro.value.output.schema="${STATS_SCHEMA}" \
--avro-input v --avro-output v \
--upload-file-to-cache color_count.py --mrv2 \
color_count input output
有关详细信息,请参阅Pydoop Avro docs。