我在Google云端存储中的客户端配置文件上有数十TB的数据。我使用来自c#.net windows服务的Google Big Query对其进行聚合。聚合不是时间关键的,所以效果很好。
但是现在我想将来自网站的计数查询直接指向此数据集,因此客户可以估算其过滤数据中的记录数。我意识到查询TB数据集,而另一端有一个Web服务器等待结果不是一个好主意。所以我决定创建一个统计样本,比如大约100K行。 对于这个用例,近似结果是可以的。
我的问题是我应该将示例数据保存在Google大查询表中,还是将其带到我的Web服务器附近的mysql数据库并在那里运行查询。前者似乎更整洁的设计购买我关注性能。但是后来我支持2个dbms&将数据传输到mysql?
感谢。