Amazon Web Services(AWS)可以用于大型数据库吗?

时间:2011-07-12 18:27:49

标签: database amazon-web-services

我有一个项目需要存储几十个TBs数据。首先,将存储少量TBs个数据。然后,预计数据将以每天5 GB的速度增长。

基于业务逻辑,我能够在10,000s个文件/表中进行拆分(每个文件/表将包含大小为〜1 [GB]的数据)。

注意:>在任何给定的时间点,只有10-20 [GB](例如,20个表)被视为hot data,我会主动查询。)

Amazon Web Services (AWS)可以用来存储&查询如此庞大的数据量?

如果我想在内部存储这些数据,那么解决这个问题的最佳方法是什么 (例如,显然我不能在一台机器上拥有所有数据等...)?

3 个答案:

答案 0 :(得分:1)

缺乏有关数据格式,架构等的信息,以下是我处理它的方式:

  • 以一些Map / Reduce友好格式将数据存储在S3中
  • 在需要时使用hadoop(或Elastic Map Reduce)查询整个数据集。典型的模式是使用M / R提前获得所需的所有答案,并将更小的结果存储在其他数据库中。
  • 如果在SQL中确实需要20GB的“热数据”,我可能会有一些ETL用于加载到Amazon RDS(MySQL)中,但如果我可以使用M / R,我会尽量避免使用它回答我的所有问题,并拥有一个小而优化的数据集。

答案 1 :(得分:0)

存储不会是问题。亚马逊的云只是另一个位置的计算机(虚拟)。因此,事实上它在亚马逊的云中并没有真正改变性能方程,除非你将大量数据集下载到云外的应用程序中。

每天传输5GB数据可能是一个棘手的问题,但似乎可行。

答案 2 :(得分:0)

不,我不认为。不适用于休数据库。

这些是您购买特殊硬件的区域 - 例如Oracle ExaData(我的最后一个数据仓库的容量为20.000gb,而且它们的规模很小)。

问题是:

  • 备份。是的,亚马逊有时会丢失数据 - 发生了。
  • 加载大量数据。
  • 资源。您甚至可能需要比最好的虚拟机更多的东西。如果您不控制硬件,那么调整会很麻烦。
  • 成本。真。亚马逊每周7天每天24小时都很贵。

如果可以启用map / recude或类似的东西 - 是的。 Buta 96核心Oracle RAC安装(在Exadata方面很小)并不是我想在亚马逊上尝试的。

然后他们没有特殊的硬件。就像已经过滤掉不需要的行的Oracle ExaData RAID控制器一样(通过使用它们的存储索引)。

所以,我会说:不。