架构帮助-ETL数据流和处理的替代方法

时间:2018-08-03 19:06:40

标签: google-cloud-platform google-bigquery google-cloud-storage google-cloud-dataflow

我正在寻找有关为简单的ETL工作构建体系结构的指导。我已经建立了一个解决方案,但我正在寻找改善或尝试使用其他架构来呈现的方法。

这是我的用例:

  1. 源数据以csv格式从移动设备上传到Cloud Storage
  2. 处理数据并将其转换为json格式
  3. 使用大数据存储解决方案进行分析
  4. 使用可视化解决方案来显示数据

为此,我构建了一个解决方案,用户可以将csv格式的源数据上传到Cloud Storage。我使用Cloud Functions监视我的Cloud Storage存储桶中的更改,并触发Dataflow管道对其进行批处理并将数据(json格式)存储在bigquery中进行分析。最后,我使用Data Studio来查看bigquery表中的信息。

这是我的工作流程:

云存储->云功能(触发)->云数据流->大查询-> Data Studio

我还可以使用其他哪些替代体系结构来实现这一目标? Cloud Pub / Sub是批处理的选项吗?使用Apache Kafka进行管道处理怎么样?

1 个答案:

答案 0 :(得分:-2)

看起来还不错。我在架构或多或少相似的AWS上构建了许多数据湖解决方案。在创建DynamoDBLambda等管道之前,我确实偶尔会使用AMI Id存储稍后在Instance Types函数(该函数动态创建管道)中使用的信息。

您可以使用Cloud Datastore代替DynamoDB