我希望将一些数据流式传输到Big Query,并围绕Google Streaming data into Big Query的最佳做法的第3步提出问题。这个过程很有意义,但我正在努力实现第3步的实现。(我希望使用数据存储区作为我的事务数据存储。)对于第3步说“从事务数据存储中协调数据并截断”未对帐的数据表。“我的问题是这个;如果我的对帐数据位于Google数据存储区中,是否有办法自动备份和删除此数据而无需手动干预?
我知道我可以使用Datastore Admin来实现这种推荐做法。我可以: 1)暂停对数据存储区的所有写入 2)将数据存储表备份到云存储 3)删除我刚刚备份的表中的所有实体。 4)将备份导入Big Query
有没有办法让我自动化,所以我不必定期手动完成?
实时仪表板和查询
在某些情况下,将数据流式传输到BigQuery可以实现对事务数据的实时分析。由于流数据可能存在重复数据,因此请确保您在BigQuery之外拥有主要的事务数据存储。
您可以采取一些预防措施,以确保您能够对交易数据执行分析,并且还可以获得最新的数据视图:
1)创建两个具有相同模式的表。第一个表用于已对帐数据,第二个表用于实时未经协调的数据。
2)在客户端,维护记录的事务数据存储。 消除并忘记insertAll()请求这些记录。 insertAll()请求应将实时未协调的表指定为目标表。
3)在某个时间间隔,附加来自事务数据存储的已对帐数据,并截断未对帐数据表。
4)对于实时仪表板和查询,您可以从两个表中选择数据。未对帐的数据表可能包含重复或删除的记录。