Question

我目前正在探索如何定期查询表中的流缓冲区数据，以便近乎实时地生成性能报告，并找到以下StackOverflow链接：

How to query for data in streaming buffer ONLY in BigQuery?

但是，当前的分区类型是使用--time_partitioning_field

实现的

使用以下查询强制查询表中的所有数据：

SELECT * FROM `<project>.<data-set>.<time-partitioned-streaming-table>`
where <time-partitioning-field> is null

查询没有显示任何差异，因为理想情况下，峰值流缓冲区的速度为每小时@ ~60MB

有没有办法只使用这种类型的分区查询流数据？

Answer 1

我相信这应该有效（但它是遗留SQL）

log4j.rootLogger='ERROR'

log4j.logger.SUPERVISION='INFO,SUPERVISION'

log4j.logger.org.hibernate=`ERROR`

log4j.logger.org.hibernate.type='ERROR'

log4j.logger.org.apache='ERROR'

Answer 2

无法查询partioned tables的流缓冲区数据，因为一旦定义了特定的TIMESTAMP或DATE，数据就为"streamed directly to the partition"。

检查official documentation您还可以找到您发布的链接中提到的摄取时间分区表的解决方案。

使用--time_partitioning_field查询流数据

2 个答案: