尝试做一些概念上简单的事情,但把头撞在墙上。
我正在尝试在Python中创建流数据流作业,该作业使用来自PubSub主题/订阅的JSON消息,对每条消息执行一些基本操作(在这种情况下,将温度从C转换为F),然后发布记录退出另一个主题:
from __future__ import absolute_import
import logging
import argparse
import apache_beam as beam
import apache_beam.transforms.window as window
import json
'''Normalize pubsub string to json object'''
# Lines look like this:
#{"temperature": 29.223036004820123}
def transform_temp(line):
record = json.loads(line)
record['temperature'] = record['temperature'] * 1.8 + 32
return json.dumps(record)
def run(argv=None):
"""Build and run the pipeline."""
parser = argparse.ArgumentParser()
parser.add_argument(
'--output_topic', required=True,
help=('Output PubSub topic of the form '
'"projects/<PROJECT>/topic/<TOPIC>".'))
group = parser.add_mutually_exclusive_group(required=True)
group.add_argument(
'--input_topic',
help=('Input PubSub topic of the form '
'"projects/<PROJECT>/topics/<TOPIC>".'))
group.add_argument(
'--input_subscription',
help=('Input PubSub subscription of the form '
'"projects/<PROJECT>/subscriptions/<SUBSCRIPTION>."'))
known_args, pipeline_args = parser.parse_known_args(argv)
with beam.Pipeline(argv=pipeline_args) as p:
# Read the pubsub topic into a PCollection.
lines = ( p | beam.io.ReadStringsFromPubSub(known_args.input_topic)
| beam.Map(transform_temp)
| beam.io.WriteStringsToPubSub(known_args.output_topic)
)
if __name__ == '__main__':
logging.getLogger().setLevel(logging.INFO)
run()
使用DirectRunner在本地运行此代码时,一切正常。但是,切换到DataflowRunner时,我再也看不到任何有关新主题的消息。
我还尝试将一些日志记录调用添加到transform_temp函数,但在Dataflow的控制台日志中看不到任何内容。
有什么建议吗?顺便说一句-如果我只是将输入主题垂直于输出主题,则可以看到消息,因此我知道流媒体工作正常。
非常感谢!
答案 0 :(得分:0)
您可能只是缺少windowinto功能。 Apache Beam的文档指出,对于流管道,您需要设置非默认窗口或非默认触发器。由于尚未定义窗口,因此只有一个全局窗口,因此在进入接收器之前,它可能会无休止地等待窗口的末端。