将数据从Google云存储中移出/流式传输的最佳方法是什么?另外,Dataflow是否提供任何功能将数据从Google云存储流式传输到外部GCP?
答案 0 :(得分:1)
从Google云存储中移出数据的最佳方法也许是使用gsutil工具,或者您可以使用它们提供的python和boto插件来简化操作,您将在此链接中找到详细信息。 https://cloud.google.com/storage/docs/streaming。 至于问题的第二部分,到目前为止,Kafka可以连接到Cloud Dataflow,我认为您可以使用它来将数据从GCP中流出来。 Apache Beam从2016年开始支持KafkaIO。我想下面的链接会帮助您很多。
https://github.com/apache/beam/tree/master/sdks/java/io/kafka