针对大整数系列的优化存储

时间:2014-05-10 15:59:47

标签: sql postgresql time-series

我目前正在从头开始设计初创公司的后端。我们从互联网上搜集时间序列。我们每分钟刮掉大量的整数,并将它们存储在csv文件中的时间戳行中。

由于我们仍处于设计阶段,因此我们没有正确开始利用数据。我想知道,几年整数系列的最佳存储量是多少?我们开始考虑在Postgres中加载它,但是sql是否适合利用时间序列?

我期待找到一种奇迹软件,这种软件对于处理这种特定的数据集是最佳的,并且很高兴听到任何可以启用的建议:

  • 持久存储
  • 平均/分组计算,可能还有其他类似R的功能
  • 与原始SQL数据库存储相比,在性能,功耗或易用性方面获得

1 个答案:

答案 0 :(得分:3)

每分钟,8,000个值转换为每天1150万个值或每年40亿行。这是一个沉重的负担。只需插入负载(使用任何符合ACID标准的方法)是显而易见的 - 每秒超过100次插入。这在现代数据库系统中绝对可以管理,但它并非无足轻重。

Postgres很可能使用适当的索引和分区方案来处​​理此负载。此解决方案的确切性质取决于您需要运行的查询,但Postgres确实具有支持它的基础工具。

但是,您的要求(在我看来)大于Stack Overflow可以提供的要求。如果您正在设计这样的系统,您应该寻求专业Postgres DBA的帮助。我可以补充一点,您可以考虑查看基于云的解决方案,例如Amazon Redshift或Microsoft Azure,因为这些可以让您轻松扩展系统"只是"通过支付更多的钱。