将批量数据写入大查询

时间:2018-04-04 15:29:28

标签: python pandas google-bigquery

我想使用软件API将批量数据写入BQ。

我的限制是:

  • 我将使用BQ的最大尺寸,列10,000和~35000行(这可能更大)
  • 需要架构自动检测
  • 如果可能的话,我想使用某种并行性来同时写多个表(因为Apache-beam和数据流可能是解决方案)
  • 对BQ使用Pandas库时,可写入的数据帧大小有限制。这需要分区数据

最好的方法是什么?

非常感谢任何建议/评论, eilalan

1 个答案:

答案 0 :(得分:0)

Apache beam是正确的组件,因为它支持批量和流模式下的大量数据处理。

我不认为Beam是“Schema自动检测”。但是,如果表已经存在,您可以使用BigQuery API来获取模式。