Google称BigQuery可以处理数十亿行。
对于我的应用程序,我估计使用200,000,000 * 1000行。超过几十亿。
我可以将数据划分为每个分区200,000,000行,但BigQuery中对此的唯一支持似乎是不同的表。 (如果我错了,请纠正我)
总数据大小约为2TB。
我在示例中看到了一些大数据量,但行数都不到十亿。
BigQuery可以支持我在一个表中处理的行数吗?
如果没有,我可以以多种表格之外的任何方式对其进行分区吗?
答案 0 :(得分:2)
下面应该回答你的问题
我在我们的一个数据集中再次运行它 正如您所见,表格大小接近10TB,行数约为13-1.6亿行
SELECT
ROUND(size_bytes/1024/1024/1024/1024) as TB,
row_count as ROWS
FROM [mydataset.__TABLES__]
ORDER BY row_count DESC
LIMIT 10
我认为到目前为止我们处理的最大表格至少达到了5-6亿,并且都按预期工作了
Row TB ROWS
1 10.0 1582903965
2 11.0 1552433513
3 10.0 1526783717
4 9.0 1415777124
5 10.0 1412000551
6 10.0 1410253780
7 11.0 1398147645
8 11.0 1382021285
9 11.0 1378284566
10 11.0 1369109770
答案 1 :(得分:1)
简短回答:是的,即使您将所有数据放在一个表中,BigQuery也会处理这个问题。
如果您确实要对数据进行分区,那么现在唯一的方法就是将数据显式存储在多个表中。如果您经常仅查询数据的一部分,则可以考虑这样做以减少您的账单。许多用户按日期对数据进行分区,并使用table wildcard functions在这些分区表的子集中编写查询。