将dynamodb连接到火花?

时间:2016-05-10 02:00:09

标签: amazon-dynamodb pyspark

有没有办法将pyspark(使用python的Sparks API)连接到dynamodb。对于mongodb和cassandra,有连接器可以与pyspark连接。如果dynamo可以充当Hadoop输入/输出,那么似乎可以做到。

https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst

任何线索都会非常感激。

1 个答案:

答案 0 :(得分:0)

我们为Spark创建了DynamoDB自定义数据源:

https://github.com/audienceproject/spark-dynamodb

它具有许多优雅的功能:

  • 具有延迟评估的分布式并行扫描
  • 通过速率限制所配置的表/索引容量的目标分数来进行吞吐量控制
  • 满足您需求的架构发现
  • 动态推理
  • 案例分类的统计分析
  • 列和过滤器下推
  • 全球二级索引支持
  • 写支持

但是它是为Scala Spark API开发的。如果您可以检查一下并提供反馈,我们将非常乐意。