用于Apache Hadoop的emr-dynamodb-connector

时间:2018-04-02 11:47:23

标签: amazon-dynamodb amazon-emr

我有一个EMR并打算在Dynamo DB上做我的Reducer的CRUD操作。

注意我不使用Hive或Spark 并使用Apache Hadoop。是否有关于如何从我的EMR连接Dynamo DB的文档?

1 个答案:

答案 0 :(得分:1)

emr-dynamodb-connector是开源库,包括Hadoop类,如DynamoDBInputFormatDefaultDynamoDBRecordReader,用于从DynamoDB读取数据(使用并行扫描),具有读取速率控制& DynamoDBOutputFormat DefaultDynamoDBRecordWriter用于使用写入速率控制向DynamoDB写入(使用BatchWrites API)以避免限制。

我认为除了这个开源库的README之外,还有其他AWS文档。

所有EMR集群都应该有一个这个库的预构建包(emr-dynamodb-tools除外),通常是@ /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar并包含在EMR Hadoop的类路径中。因此,您可以使用config's配置

设置所需的配置(包括DynamoDB Job),在MR应用程序中使用此JAR中的Hadoop InputFormat和OutputFormat实现