谷歌云数据流中的动态分区?

时间:2015-03-20 19:51:28

标签: google-bigquery google-cloud-dataflow

我使用数据流处理存储在GCS中的文件并写入Bigquery表。以下是我的要求:

  1. 输入文件包含事件记录,每个记录属于一个eventType;
  2. 需要按eventType分区记录;
  3. 为每个eventType输出/写入相应Bigquery表的记录,每个eventType一个表。
  4. 每个批处理输入文件中的事件各不相同;
  5. 我正在考虑应用" groupByKey"等变换。然而,似乎我必须知道在开发时确定分区所需的事件数量(和类型)和/#34;分区"

    你们有个好主意大幅度地进行分区吗?意思是分区可以在运行时确定吗?

1 个答案:

答案 0 :(得分:1)

为什么不将所有内容加载到单个“原始”bigquery表中,然后使用BigQuery API确定不同数量的事件并将每个事件类型导出到自己的表(例如,通过https://cloud.google.com/bigquery/bq-command-line-tool#createtablequery)或API调用?

如果您的输入格式很简单,那么您可以在不使用数据流的情况下完成此操作,这可能会更具成本效益。