应用错误收集

大规模加载PetaBytes数据

时间：2016-12-09 07:00:23

标签： performance hadoop apache-spark hpcc bigdata

我需要在一秒钟内将数PB的文本数据加载到存储（RAM / SSD）中。

以下是解决上述问题的一些问题。

1）实际/理论上是否可以在一秒钟内加载数PB的数据？ 2）为了在亚秒内实现快速加载PB级数据，最佳设计方法是什么。 3）任何可用的基准方法？。

我可以使用Hadoop，spark，HPCC等任何技术实现......

3 个答案:

答案 0 :(得分：4)

＆＃34; petabytes ....在一秒钟内＃34;。当真？请检查wikipedia Petabyte：它是1.000.000 GB！

同时检查wikipedia Memory bandwidth。即使是最快的RAM也无法处理超过10 GB / s的速度（实际上这个数据要低得多）。

好奇：你的用例是什么？

答案 1 :(得分：2)

不，目前技术上不可行。甚至RAM内存都不够快（更不用说明显的容量限制）。最快的SSD（M.2驱动器）可以获得大约1.2GB / s的写入速度，并且使用raid 0，最多可以实现大约3GB / s的速度。还存在经济上的限制，因为这些驱动器本身非常昂贵。
所以要回答你的问题，目前这些速度在技术上是不可能的。

答案 2 :(得分：0)

从HPCC的角度来看......

Thor 旨在加载数据并支持多台服务器。然而，我听说最大的集群是大约4000台服务器。 Thor旨在长时间（甚至一周）加载大量数据。

另一方面， Roxie 旨在快速提供数据但不是您所要求的......也不会在一秒钟内提供Petabytes。