我的数据集中有一个表,其中有3,500,000行,表上的计数(*)大约需要1.5秒,对于包含718,158行(上表的子集)的ano表,计数(*)大约需要3 -4秒。
我想知道为什么,是因为它的架构?
答案 0 :(得分:1)
1) Big Query是一个高度可扩展的数据库,在成为超快速的#34;数据库。它设计用于处理大量数据,使用名为Dremel的技术在几台不同的机器之间分配处理。因为它设计为使用多台机器和并行处理,所以应该具有超级可扩展性和良好的性能。
2)当您想要分析数十亿行时,BigQuery是一种资产。
例如:在5-10秒内分析所有维基百科的修订版本并不错,是吗?但即使是一个小得多的表也需要大约相同的时间,即使有10k行。
3)在此规模下,您最好使用更传统的数据存储解决方案,例如Cloud SQL或App Engine数据存储。如果您想保持SQL功能,那么Cloud SQL就是最佳猜测。
也就是说,在许多情况下,它会比Big Query更快......按照设计。
4)当然,性能与专用环境不同。您可以获得每月20K美元的专属环境。