应用错误收集

时间：2011-07-12 18:27:49

标签： database amazon-web-services

我有一个项目需要存储几十个TBs数据。首先，将存储少量TBs个数据。然后，预计数据将以每天5 GB的速度增长。

基于业务逻辑，我能够在10,000s个文件/表中进行拆分（每个文件/表将包含大小为〜1 [GB]的数据）。

（注意：>在任何给定的时间点，只有10-20 [GB]（例如，20个表）被视为hot data，我会主动查询。）

Amazon Web Services (AWS)可以用来存储＆amp;查询如此庞大的数据量？

如果我想在内部存储这些数据，那么解决这个问题的最佳方法是什么（例如，显然我不能在一台机器上拥有所有数据等...）？

答案 0 :(得分：1)

缺乏有关数据格式，架构等的信息，以下是我处理它的方式：

以一些Map / Reduce友好格式将数据存储在S3中
在需要时使用hadoop（或Elastic Map Reduce）查询整个数据集。典型的模式是使用M / R提前获得所需的所有答案，并将更小的结果存储在其他数据库中。
如果在SQL中确实需要20GB的“热数据”，我可能会有一些ETL用于加载到Amazon RDS（MySQL）中，但如果我可以使用M / R，我会尽量避免使用它回答我的所有问题，并拥有一个小而优化的数据集。

答案 1 :(得分：0)

存储不会是问题。亚马逊的云只是另一个位置的计算机（虚拟）。因此，事实上它在亚马逊的云中并没有真正改变性能方程，除非你将大量数据集下载到云外的应用程序中。

每天传输5GB数据可能是一个棘手的问题，但似乎可行。

答案 2 :(得分：0)

不，我不认为。不适用于休数据库。

这些是您购买特殊硬件的区域 - 例如Oracle ExaData（我的最后一个数据仓库的容量为20.000gb，而且它们的规模很小）。

问题是：

如果可以启用map / recude或类似的东西 - 是的。 Buta 96核心Oracle RAC安装（在Exadata方面很小）并不是我想在亚马逊上尝试的。

然后他们没有特殊的硬件。就像已经过滤掉不需要的行的Oracle ExaData RAID控制器一样（通过使用它们的存储索引）。

所以，我会说：不。