Google Dataflow可以生成Parquet文件作为ETL转换的输出。
输入--->数据流----->实木复合地文件
答案 0 :(得分:2)
Cloud Dataflow没有生成Parquet文件的内置方式,但基于Parquet API的快速查看,实现custom file-based Dataflow sink这样做应该相对容易(请参阅“ FileBasedSink“那里。”
答案 1 :(得分:1)
自2.10于2019年2月在docs引入parquetio
起,Cloud Dataflow就支持编写Parquet。从Copy activity
with beam.Pipeline() as p:
records = p | 'Read' >> beam.Create(
[{'name': 'foo', 'age': 10}, {'name': 'bar', 'age': 20}]
)
_ = records | 'Write' >> beam.io.WriteToParquet(filename,
pyarrow.schema(
[('name', pyarrow.binary()), ('age', pyarrow.int64())]
)
)