用于财务分析的数据存储

时间:2012-03-24 01:14:50

标签: database data-warehouse greenplum infobright monetdb

我正在构建系统来分析有关证券交易价格的大量金融数据。这方面的一个重大挑战是确定数据将使用哪种存储方法,因为数据将在10的TB级中。将对数据进行许多查询,例如取平均值,计算标准偏差以及按多个列过滤的总和,例如价格,时间,数量等。连接语句不是必需的,但会很好。

目前,我正在考虑使用infobright社区版,monetdb和greenplum社区版进行评估。到目前为止,它们看起来很棒,但是对于更高级的功能,某些版本中没有一些是必需的(使用多个服务器,插入/更新语句等)。

您会针对这种情况使用哪些解决方案,并为替代方案提供哪些好处?具有成本效益是一个重要的优点。如果我必须支付数据仓库解决方案,我会,但我宁愿避免它,并尽可能采用开源/社区版路线。

2 个答案:

答案 0 :(得分:1)

我认为您提到的任何数据库都可以满足您的需求。如果您正在处理10个TB值的数据,那么获得在MPP集群中运行的企业许可可能会很好地利用资金来缩短处理时间。此外,如果此DW将为您的组织进行重要处理,拥有许可证意味着您将获得供应商的支持,这对许多企业都很重要。 YMMV。

更重要的问题是您的数据摄取率会是什么样的?对于金融系统,我认为方程式的很大一部分应该是能够在继续进行正常处理的同时将新数据加载到系统中。

我只对候选人名单中的Greenplum很熟悉,但我知道它在短时间内加载大量数据方面做得很好。 GP还有许多内置的统计和分析功能,您可以在DB内部本地运行,包括内置的SQL函数,MADLib,R等。

答案 1 :(得分:1)

Infobright提供快速查询性能,无需调整,无需投影,也无需对大量数据进行索引。在数据加载方面,我已经看到每小时可以加载80TB数据的实例,每秒超过12,000次插入。

它是如何运作的?

  1. 列方向与行方向
  2. 数据包加压缩平均值为20:1
  3. 知识网格 - 关于查询的次秒响应
  4. Granular Engine,构建于mysql架构之上
  5. 我仍然建议您考虑查看企业许可,但您当然可以评估社区版并测试您的性能和数据加载需求。

    免责声明:作者隶属于Infobright。