我使用数据流处理存储在GCS中的文件并写入Bigquery表。以下是我的要求:
我正在考虑应用" groupByKey"等变换。然而,似乎我必须知道在开发时确定分区所需的事件数量(和类型)和/#34;分区"
你们有个好主意大幅度地进行分区吗?意思是分区可以在运行时确定吗?
答案 0 :(得分:1)
为什么不将所有内容加载到单个“原始”bigquery表中,然后使用BigQuery API确定不同数量的事件并将每个事件类型导出到自己的表(例如,通过https://cloud.google.com/bigquery/bq-command-line-tool#createtablequery)或API调用?
如果您的输入格式很简单,那么您可以在不使用数据流的情况下完成此操作,这可能会更具成本效益。