如何从BigQuery表获取表/列统计信息

时间:2020-02-05 18:12:11

标签: sql google-bigquery

BigQuery是否提供任何sql命令来检索表基数?

例如,某些RDBMS提供程序具有sql命令,例如:

show table_stats schemaname tablename

获取表基数。

另外,列统计如何?像col中的唯一值数量以及MIN,MAX等。

我看到BigQuery控制台同时提供表和列统计信息,但我想知道这些信息是否可以通过SQL语句访问

谢谢!

1 个答案:

答案 0 :(得分:0)

我认为您要使用的功能更适合该语言,而不是工具或服务本身。

  • 获取有关表格的统计信息。我发现Getting table metadata解释了如何获取表和列的表元数据。运行该文档中的查询时,您将获得一些信息。

对于表:包含表的数据集名称,默认生存期(以天为单位)和其他Table_Options view结果。

对于列:包含数据集的项目的名称,列的标准SQL数据类型,如果该值是可更新,存储或隐藏的。查找更多Results for the Columns view

  • 获取有关列的统计信息。您可以使用COUNT DISTINCT函数,该函数检索某些列中唯一值的统计近似值。

我发现了这个Community blog,在那里他们展示了不同的示例和获取唯一值的方法。它甚至说明了如何增加近似阈值。

编辑

我认为BigQuery不提供许多唯一字段。但是,您始终可以查看BigQuery UI中的SchemaDetails标签,其中显示了字段的名称,包括类型和说明。

公共数据集中的示例

Public Dataset "Crime"

希望这会有所帮助。