我有一个EMR并打算在Dynamo DB上做我的Reducer的CRUD操作。
注意我不使用Hive或Spark 并使用Apache Hadoop。是否有关于如何从我的EMR连接Dynamo DB的文档?
答案 0 :(得分:1)
emr-dynamodb-connector是开源库,包括Hadoop类,如DynamoDBInputFormat
,DefaultDynamoDBRecordReader
,用于从DynamoDB读取数据(使用并行扫描),具有读取速率控制&
DynamoDBOutputFormat
DefaultDynamoDBRecordWriter
用于使用写入速率控制向DynamoDB写入(使用BatchWrites API)以避免限制。
我认为除了这个开源库的README之外,还有其他AWS文档。
所有EMR集群都应该有一个这个库的预构建包(emr-dynamodb-tools除外),通常是@ /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar
并包含在EMR Hadoop的类路径中。因此,您可以使用config's配置