应用错误收集

我目前正在从头开始设计初创公司的后端。我们从互联网上搜集时间序列。我们每分钟刮掉大量的整数，并将它们存储在csv文件中的时间戳行中。

由于我们仍处于设计阶段，因此我们没有正确开始利用数据。我想知道，几年整数系列的最佳存储量是多少？我们开始考虑在Postgres中加载它，但是sql是否适合利用时间序列？

我期待找到一种奇迹软件，这种软件对于处理这种特定的数据集是最佳的，并且很高兴听到任何可以启用的建议：

持久存储
平均/分组计算，可能还有其他类似R的功能
与原始SQL数据库存储相比，在性能，功耗或易用性方面获得

每分钟，8,000个值转换为每天1150万个值或每年40亿行。这是一个沉重的负担。只需插入负载（使用任何符合ACID标准的方法）是显而易见的 - 每秒超过100次插入。这在现代数据库系统中绝对可以管理，但它并非无足轻重。

Postgres很可能使用适当的索引和分区方案来处理此负载。此解决方案的确切性质取决于您需要运行的查询，但Postgres确实具有支持它的基础工具。

但是，您的要求（在我看来）大于Stack Overflow可以提供的要求。如果您正在设计这样的系统，您应该寻求专业Postgres DBA的帮助。我可以补充一点，您可以考虑查看基于云的解决方案，例如Amazon Redshift或Microsoft Azure，因为这些可以让您轻松扩展系统＆＃34;只是＆＃34;通过支付更多的钱。

针对大整数系列的优化存储

1 个答案: