我需要在一秒钟内将数PB的文本数据加载到存储(RAM / SSD)中。
以下是解决上述问题的一些问题。
1)实际/理论上是否可以在一秒钟内加载数PB的数据? 2)为了在亚秒内实现快速加载PB级数据,最佳设计方法是什么。 3)任何可用的基准方法?。
我可以使用Hadoop,spark,HPCC等任何技术实现......
答案 0 :(得分:4)
" petabytes ....在一秒钟内#34;。当真?请检查wikipedia Petabyte:它是1.000.000 GB!
同时检查wikipedia Memory bandwidth。即使是最快的RAM也无法处理超过10 GB / s的速度(实际上这个数据要低得多)。
好奇:你的用例是什么?
答案 1 :(得分:2)
不,目前技术上不可行。甚至RAM内存都不够快(更不用说明显的容量限制)。最快的SSD(M.2驱动器)可以获得大约1.2GB / s的写入速度,并且使用raid 0,最多可以实现大约3GB / s的速度。还存在经济上的限制,因为这些驱动器本身非常昂贵。
所以要回答你的问题,目前这些速度在技术上是不可能的。
答案 2 :(得分:0)
从HPCC的角度来看......
Thor 旨在加载数据并支持多台服务器。然而,我听说最大的集群是大约4000台服务器。 Thor旨在长时间(甚至一周)加载大量数据。
另一方面, Roxie 旨在快速提供数据但不是您所要求的......也不会在一秒钟内提供Petabytes。