我想设置从gcs存储桶中的文件读取的Dataflow管道,并写入bigquery表。注意,应该根据从gcs文件中读取的行的内容来决定写入表。
我的问题是,这可能吗?如果是,有人可以给我任何关于如何实现这一目标的提示吗?
此外,必须完成阅读的gcs文件是动态的。我正在使用对象更改通知服务,无论何时向存储桶添加/删除任何文件,都会调用我的appengine的注册端点,以及添加/删除的文件详细信息。这是必须将内容流式传输到bigquery的文件。
是否可以将数据流管道与appengine集成?
最后,这整个设置是最好的方法吗?
...谢谢
答案 0 :(得分:1)
关于第一个问题:请参阅Writing different values to different BigQuery tables in Apache Beam
关于第二个问题:实现这一目标的一种方法是让您的appengine应用程序将每个更改通知发布到Cloud Pubsub,并且有一个持续运行的流数据流管道来观察pubsub主题并写入BigQuery。
关于你的第三个问题:是的,假设你在GCS上的数据表示是固定的,其余部分对我来说似乎是一个合理的摄取架构:)