我一直在使用Apache Beam的Python SDK,而我一直在使用的语法是使用管道
示例1:
...
(p
| 'read' >> ReadFromText(known_args.input)
| 'Revenue for each product line item' >>> (beam.ParDo(RevenuePerProduct()))
| 'Group per product' >> (beam.GroupByKey())
| 'Total revenue per product' >> (beam.ParDo(CalcTotalProductRevenue()))
| 'Format to json' >> (beam.ParDo(format_output_json))
| 'Write to BigQuery' >> beam.io.WriteToBigQuery(known_args.output, schema=PRODUCT_REVENUE_SCHEMA)
)
示例2:
...
csv_lines = (p | ReadFromText(input_filename, skip_header_lines=1)
我已经尝试寻找有关此语法的教程,但找不到任何语法。 谷歌搜索“ Python管道语法”仅返回有关管道子进程使用情况的信息(即linux。将管道与bash一起使用是否有类似的概念?)。
该语法的含义是什么,或者更好的是,您能指导我使用该语法的资源吗?