Python:如何使用pandas dataframe更新(覆盖)Google BigQuery表

时间:2018-05-21 09:20:18

标签: python pandas google-bigquery

我在Google BigQuery(GBQ)中有一个表,其中有近300万条记录(行),这些记录是基于每天来自MySQL数据库的数据创建的。此数据使用Python pandas数据框(.to_gbq())插入GBQ表中。

使用python在这个方向上将更改从MySQL同步到GBQ的最佳方法是什么。

1 个答案:

答案 0 :(得分:1)

article中介绍了几种将MySQL数据导入BigQuery的不同方法,可能符合您的需求。例如 Binlog复制

  

这种方法(有时称为变更数据捕获 - CDC)利用MySQL的binlog。 MySQL的binlog保存每个DELETE,INSERT和UPDATE操作的有序日志,以及数据库执行的数据定义语言(DDL)数据。在初始转储MySQL数据库的当前状态后,binlog更改将不断流式传输并加载到Google BigQuery中。

似乎正是您要搜索的内容。