Google Dataflow可以生成Parquet文件吗?

时间:2015-11-24 13:54:20

标签: google-cloud-dataflow parquet

Google Dataflow可以生成Parquet文件作为ETL转换的输出。

输入--->数据流----->实木复合地文件

2 个答案:

答案 0 :(得分:2)

Cloud Dataflow没有生成Parquet文件的内置方式,但基于Parquet API的快速查看,实现custom file-based Dataflow sink这样做应该相对容易(请参阅“ FileBasedSink“那里。”

答案 1 :(得分:1)

2.10于2019年2月在docs引入parquetio起,Cloud Dataflow就支持编写Parquet。从Copy activity

with beam.Pipeline() as p:
  records = p | 'Read' >> beam.Create(
    [{'name': 'foo', 'age': 10}, {'name': 'bar', 'age': 20}]
  )
  _ = records | 'Write' >> beam.io.WriteToParquet(filename,
  pyarrow.schema(
      [('name', pyarrow.binary()), ('age', pyarrow.int64())]
  )
)