万亿行公共数据集?

时间:2017-02-09 00:24:15

标签: sql database database-design google-bigquery amazon-redshift

我正在对数据库执行一些基准测试,我想知道是否有任何公开可用的数据集包含超过1T的行?

我知道Google Big Query有一些公开可用的数据集是100M +(wikipedia,gdelt-events)和1B +(nyc-tlc)行,但是找不到更大的数据集。有没有人知道可以下载的1T行数据集?

一些参考链接:

2 个答案:

答案 0 :(得分:2)

有基准维基表。它拥有我见过的最大的公共桌面。最大的表是106B行(6.76TB)。如果你真的想要一万亿行,你可以简单地运行~10 *拷贝追加作业!

https://bigquery.cloud.google.com/table/bigquery-samples:wikipedia_benchmark.Wiki100B?tab=details

答案 1 :(得分:1)

仅仅生成数据集会更容易吗?当然,问题仍然是它的价值分布和相关性是多么现实,以及它对测量绩效的影响有多大。

如果您可以假设群集线性扩展,那么您可以使用5%的数据和5%的预期拥有生产群集的节点进行基准测试。无论数据集大小如何,您只需选择节点数,以便它们可以执行所需的请求数/分钟。

备份该大小的数据库必定是一个非常有趣的问题,特别是如果它不断更新。