有谁知道什么/被用作臭名昭着的NSA呼叫数据库的DBMS?

时间:2010-03-08 13:40:16

标签: scalability database

Another question on SO突然让我想知道世界上最大的数据库是什么(以及它有多大)。谷歌快速搜索出现了这个问题:美国国家安全局创建的NSA call database。据称这个数据库包含 1.9万亿条记录,其中包含了早在2001年就通过AT& T和Verizon拨打的电话的详细信息。

有谁知道这个数据库使用了什么样的数据库系统?在我看来,1.9万亿条记录甚至比典型的大型商业数据库还要多。但也许我错了。我也没有以任何方式对此进行广泛研究,因此NSA呼叫数据库在世界上最大的声称可能是错误的。

不过,我很想知道哪种DBMS可以合理地处理这么多记录。

1 个答案:

答案 0 :(得分:4)

1.9万亿行乘,比方说,8000字节/行是,嗯,15PB?我做那个算术了吗?这比几个知名的商业数据库大一个数量级。谷歌搜索“petabyte数据库”给了我

  • ebay:一个2 + PB的数据仓库 和一个6+ PB级的数据仓库 (2009)
  • facebook:2+ PB级数据仓库 (2010)
  • 沃尔玛:2 + PB级数据仓库 (2010)
  • 美国银行:1+ PB级数据 仓库(2010年)
  • 戴尔:1 + PB级数据仓库 (2010)

在64位无符号整数范围内,1.9万亿行很容易(咳)行可寻址。

物理学家和天文学家似乎拥有最大的目标。斯坦福大学需要为其大型天气测量望远镜管理大约155PB的数据。在我街上的天文项目每天产生大约10PB,但它们的存储量几乎没有那么多。

哎呀,我几乎忘记了问题的重点。 Greenplum和Teradata出现次数最多。但我不认为任何知道国家安全局实际使用的人会谈论它。

@Tomislav Nakic-Alfirevic:一个打印每1000行的awk程序:

NR % 1000 == 0 {print $0}

你认为国家安全局会为此付钱吗?我的房子需要一个新屋顶。