Apache Beam将每个标记的输出写入单独的文件

时间:2018-07-09 21:08:32

标签: python apache beam

我根据输入数据元素(日期)之一标记输入元素。

class TagElementsWithDate(beam.DoFn):
    def process(self, element):
        dt = element['date'].replace('-', '')[:6]
        yield pvalue.TaggedOutput(dt, element)

input_data = p | 'Read Input' >>  beam.io.Read(beam.io.BigQuerySource(query='select id, date from `project.dataset.tablename`', use_standard_sql=True))

tagged_data = input_data | 'tag data' >> beam.ParDo(TagElementsWithDate()).with_outputs()

tagged_data是DoOutputsTuple。我正在尝试对此进行迭代,并将每个标记的数据写入单独的文件中。

0 个答案:

没有答案