我和我的团队有一个基于亚马逊Kinesis服务的流媒体系统,可以使用Java独立消费者和KCL向其他团队提供跟踪信息。我们已决定将此系统迁移到Google Cloud Platform。
我们了解Google平台中Amazon Kinesis的自然替代品是Google Cloud Dataflow服务。是吗?
其他问题是关于数据分区,因为我们在Kinesis中使用user-id作为分区键。在Google Dataflow上执行相同的分区是否可行?
当然,有没有人像这样进行迁移o以前从AWS迁移到Google平台?有什么建议吗?
答案 0 :(得分:2)
是的,Cloud Dataflow将是正确的替代方案,如果您想使用主题和订阅,您可能还想将Cloud Pub / Sub视为您的消息中间件。
在Dataflow中完全可以通过键对数据进行分区,但您不需要为整个管道决定单个分区键。相反,当您准备好进行聚合操作时,您只需定义一个GroupByKey转换,Dataflow将正确地将您的数据分成多个桶并以分布式方式并行处理它们。每个工人都拥有钥匙的子范围。
您可以在序列中包含多个GroupByKeys,他们可以使用不同的键进行分片和聚合。
最近迁移到GCP(特别是Dataflow)的AWS用户的例子是Brightcove。以下是他们的GCP下一场会议https://www.youtube.com/watch?v=3BrcmUqWNm0&feature=youtu.be&t=29m30s
的录音