我有一个项目需要存储几十个TBs
数据。首先,将存储少量TBs
个数据。然后,预计数据将以每天5 GB
的速度增长。
基于业务逻辑,我能够在10,000s
个文件/表中进行拆分(每个文件/表将包含大小为〜1 [GB]
的数据)。
(注意:>在任何给定的时间点,只有10-20 [GB]
(例如,20个表)被视为hot data
,我会主动查询。)
Amazon Web Services (AWS)可以用来存储&查询如此庞大的数据量?
如果我想在内部存储这些数据,那么解决这个问题的最佳方法是什么 (例如,显然我不能在一台机器上拥有所有数据等...)?
答案 0 :(得分:1)
缺乏有关数据格式,架构等的信息,以下是我处理它的方式:
答案 1 :(得分:0)
存储不会是问题。亚马逊的云只是另一个位置的计算机(虚拟)。因此,事实上它在亚马逊的云中并没有真正改变性能方程,除非你将大量数据集下载到云外的应用程序中。
每天传输5GB数据可能是一个棘手的问题,但似乎可行。
答案 2 :(得分:0)
不,我不认为。不适用于休数据库。
这些是您购买特殊硬件的区域 - 例如Oracle ExaData(我的最后一个数据仓库的容量为20.000gb,而且它们的规模很小)。
问题是:
如果可以启用map / recude或类似的东西 - 是的。 Buta 96核心Oracle RAC安装(在Exadata方面很小)并不是我想在亚马逊上尝试的。
然后他们没有特殊的硬件。就像已经过滤掉不需要的行的Oracle ExaData RAID控制器一样(通过使用它们的存储索引)。
所以,我会说:不。