适用于Hadoop的DynamoDB InputFormat

时间:2012-10-22 21:22:51

标签: hadoop amazon-web-services mapreduce amazon-dynamodb elastic-map-reduce

我必须使用Hadoop map reduce处理一些在Amazon Dynamo DB中持久保存的数据。

我正在互联网上搜索针对Dynamo DB的Hadoop InputFormat,但找不到它。我不熟悉Dynamo DB,所以我猜测有一些与DynamoDB和Hadoop相关的技巧?如果有任何地方实现此输入格式,请分享一下吗?

2 个答案:

答案 0 :(得分:3)

经过大量搜索后,我在亚马逊的一个库中找到了DynamoDBInputFormat和DynamoDBOutputFormat。

在亚马逊弹性地图上减少有一个名为hive-bigbird-handler的库,它包含dynamoDB的输入和输出格式。 完整的类名是:org.apache.hadoop.hive.dynamodb.write.DynamoDBOutputFormat和org.apache.hadoop.hive.dynamodb.read.DynamoDBInputFormat

我希望这些课程对社区有用。

答案 1 :(得分:1)

找不到可以直接在MapReduce中使用的InputFormat。但是,这是一篇使用Hive运行MarReduce作业的文章AWS HowTo: Using Amazon Elastic MapReduce with DynamoDB (Guest Post)