有没有办法将pyspark(使用python的Sparks API)连接到dynamodb。对于mongodb和cassandra,有连接器可以与pyspark连接。如果dynamo可以充当Hadoop输入/输出,那么似乎可以做到。
https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst
任何线索都会非常感激。
答案 0 :(得分:0)
我们为Spark创建了DynamoDB自定义数据源:
https://github.com/audienceproject/spark-dynamodb
它具有许多优雅的功能:
但是它是为Scala Spark API开发的。如果您可以检查一下并提供反馈,我们将非常乐意。