将数据从Google云存储中移出/流式传输

时间:2018-07-16 17:59:40

标签: google-cloud-platform google-cloud-storage google-cloud-dataflow dataflow

将数据从Google云存储中移出/流式传输的最佳方法是什么?另外,Dataflow是否提供任何功能将数据从Google云存储流式传输到外部GCP?

1 个答案:

答案 0 :(得分:1)

从Google云存储中移出数据的最佳方法也许是使用gsutil工具,或者您可以使用它们提供的python和boto插件来简化操作,您将在此链接中找到详细信息。 https://cloud.google.com/storage/docs/streaming。 至于问题的第二部分,到目前为止,Kafka可以连接到Cloud Dataflow,我认为您可以使用它来将数据从GCP中流出来。 Apache Beam从2016年开始支持KafkaIO。我想下面的链接会帮助您很多。

https://cloud.google.com/blog/big-data/2016/09/apache-kafka-for-gcp-users-connectors-for-pubsub-dataflow-and-bigquery

https://github.com/apache/beam/tree/master/sdks/java/io/kafka