我正在使用PubSub来捕获实时数据。然后使用GCP Dataflow将数据流式传输到BigQuery。我正在使用Java进行数据流。
我想试试DataFlow中给出的模板。 该过程是:PubSub - > DataFlow - >大量查询
目前我正在以字符串格式向PubSub发送消息(在此使用Python)。但是数据流中的模板只接受JSON消息。 python库不允许我发布JSON消息。任何人都可以建议我向PubSub发布JSON消息,以便我可以使用数据流模板来完成Job。
答案 0 :(得分:2)
Google提供的从PubSub到BQ的管道数据现在假设JSON格式和另一方的匹配架构。
将JSON发布到Pubsub与发布字符串没有什么不同。您可以尝试以下用于python dict到JSON转换的代码片段:
import json
py_dict = {"name" : "Peter", "locale" : "en-US"}
json_string = json.dumps(py_dict)
如果您想对管道进行大量自定义,您还可以在以下位置获取源代码并构建自己的源代码。