用什么来自Spark的dynamodb读/写?

时间:2018-01-24 15:20:59

标签: hadoop apache-spark hive amazon-dynamodb

我想知道从Spark中读取/写入dynamodb的最佳方法。

我尝试过使用dynamodb的官方API,还有emr连接器(hadoop和hive)以及其他API。

但是我发现(在其他问题中)要执行查询需要进行全面扫描,而这对于大表来说并不合适。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

您尝试使用emr-dynamodb-connector的过程通常是大多数人使用它的方式。

但是,您可以使用library连接到DynamoDb。

一般来说,从火花上访问DynamoDb很困难,因为现在你已经将火花执行器与DynamoDb油门联系起来了。您可以尝试的另一种方法是使用Hbasecassandra,我发现更好地支持使用spark,提供谓词下推等。

通常我在带有spark的群集上使用DynamoDB数据的方式是使用DynamoDb流。在S3中收集流数据并对该数据应用批处理。