Google云端数据流-将JSON流传输到PubSub的Python-DirectRunner和DataflowRunner之间的区别

时间:2018-06-28 21:35:42

标签: python json google-cloud-dataflow apache-beam google-cloud-pubsub

尝试做一些概念上简单的事情,但把头撞在墙上。

我正在尝试在Python中创建流数据流作业,该作业使用来自PubSub主题/订阅的JSON消息,对每条消息执行一些基本操作(在这种情况下,将温度从C转换为F),然后发布记录退出另一个主题:

from __future__ import absolute_import

import logging
import argparse
import apache_beam as beam
import apache_beam.transforms.window as window
import json

'''Normalize pubsub string to json object'''
# Lines look like this:
#{"temperature": 29.223036004820123}


def transform_temp(line):
    record = json.loads(line)
    record['temperature'] = record['temperature'] * 1.8 + 32
    return json.dumps(record)

def run(argv=None):
  """Build and run the pipeline."""

  parser = argparse.ArgumentParser()
  parser.add_argument(
      '--output_topic', required=True,
      help=('Output PubSub topic of the form '
            '"projects/<PROJECT>/topic/<TOPIC>".'))
  group = parser.add_mutually_exclusive_group(required=True)
  group.add_argument(
      '--input_topic',
      help=('Input PubSub topic of the form '
            '"projects/<PROJECT>/topics/<TOPIC>".'))
  group.add_argument(
      '--input_subscription',
      help=('Input PubSub subscription of the form '
            '"projects/<PROJECT>/subscriptions/<SUBSCRIPTION>."'))
  known_args, pipeline_args = parser.parse_known_args(argv)

  with beam.Pipeline(argv=pipeline_args) as p:
    # Read the pubsub topic into a PCollection.
    lines = ( p | beam.io.ReadStringsFromPubSub(known_args.input_topic)
                | beam.Map(transform_temp)
                | beam.io.WriteStringsToPubSub(known_args.output_topic)
              )

if __name__ == '__main__':
  logging.getLogger().setLevel(logging.INFO)
  run()

使用DirectRunner在本地运行此代码时,一切正常。但是,切换到DataflowRunner时,我再也看不到任何有关新主题的消息。

我还尝试将一些日志记录调用添加到transform_temp函数,但在Dataflow的控制台日志中看不到任何内容。

有什么建议吗?顺便说一句-如果我只是将输入主题垂直于输出主题,则可以看到消息,因此我知道流媒体工作正常。

非常感谢!

1 个答案:

答案 0 :(得分:0)

您可能只是缺少windowinto功能。 Apache Beam的文档指出,对于流管道,您需要设置非默认窗口或非默认触发器。由于尚未定义窗口,因此只有一个全局窗口,因此在进入接收器之前,它可能会无休止地等待窗口的末端。