我正在寻找有关为简单的ETL工作构建体系结构的指导。我已经建立了一个解决方案,但我正在寻找改善或尝试使用其他架构来呈现的方法。
这是我的用例:
为此,我构建了一个解决方案,用户可以将csv格式的源数据上传到Cloud Storage。我使用Cloud Functions监视我的Cloud Storage存储桶中的更改,并触发Dataflow管道对其进行批处理并将数据(json格式)存储在bigquery中进行分析。最后,我使用Data Studio来查看bigquery表中的信息。
这是我的工作流程:
云存储->云功能(触发)->云数据流->大查询-> Data Studio
我还可以使用其他哪些替代体系结构来实现这一目标? Cloud Pub / Sub是批处理的选项吗?使用Apache Kafka进行管道处理怎么样?
答案 0 :(得分:-2)
看起来还不错。我在架构或多或少相似的AWS上构建了许多数据湖解决方案。在创建DynamoDB
,Lambda
等管道之前,我确实偶尔会使用AMI Id
存储稍后在Instance Types
函数(该函数动态创建管道)中使用的信息。
您可以使用Cloud Datastore
代替DynamoDB
。