Cloud Dataflow:如何使用Google提供的PubSub到BigQuery的模板

时间:2018-02-21 01:35:43

标签: google-bigquery google-cloud-dataflow google-cloud-pubsub

我正在使用PubSub来捕获实时数据。然后使用GCP Dataflow将数据流式传输到BigQuery。我正在使用Java进行数据流。

我想试试DataFlow中给出的模板。 该过程是:PubSub - > DataFlow - >大量查询

目前我正在以字符串格式向PubSub发送消息(在此使用Python)。但是数据流中的模板只接受JSON消息。 python库不允许我发布JSON消息。任何人都可以建议我向PubSub发布JSON消息,以便我可以使用数据流模板来完成Job。

1 个答案:

答案 0 :(得分:2)

Google提供的从PubSub到BQ的管道数据现在假设JSON格式和另一方的匹配架构。

将JSON发布到Pubsub与发布字符串没有什么不同。您可以尝试以下用于python dict到JSON转换的代码片段:

import json
py_dict = {"name" : "Peter", "locale" : "en-US"}
json_string = json.dumps(py_dict)

如果您想对管道进行大量自定义,您还可以在以下位置获取源代码并构建自己的源代码。

https://github.com/GoogleCloudPlatform/DataflowTemplates/blob/master/src/main/java/com/google/cloud/teleport/templates/PubSubToBigQuery.java