大规模加载PetaBytes数据

时间:2016-12-09 07:00:23

标签: performance hadoop apache-spark hpcc bigdata

我需要在一秒钟内将数PB的文本数据加载到存储(RAM / SSD)中。

以下是解决上述问题的一些问题。

1)实际/理论上是否可以在一秒钟内加载数PB的数据? 2)为了在亚秒内实现快速加载PB级数据,最佳设计方法是什么。 3)任何可用的基准方法?。

我可以使用Hadoop,spark,HPCC等任何技术实现......

3 个答案:

答案 0 :(得分:4)

" petabytes ....在一秒钟内#34;。当真?请检查wikipedia Petabyte:它是1.000.000 GB!

同时检查wikipedia Memory bandwidth。即使是最快的RAM也无法处理超过10 GB / s的速度(实际上这个数据要低得多)。

好奇:你的用例是什么?

答案 1 :(得分:2)

不,目前技术上不可行。甚至RAM内存都不够快(更不用说明显的容量限制)。最快的SSD(M.2驱动器)可以获得大约1.2GB / s的写入速度,并且使用raid 0,最多可以实现大约3GB / s的速度。还存在经济上的限制,因为这些驱动器本身非常昂贵。
所以要回答你的问题,目前这些速度在技术上是不可能的。

答案 2 :(得分:0)

从HPCC的角度来看......

Thor 旨在加载数据并支持多台服务器。然而,我听说最大的集群是大约4000台服务器。 Thor旨在长时间(甚至一周)加载大量数据。

另一方面, Roxie 旨在快速提供数据但不是您所要求的......也不会在一秒钟内提供Petabytes。