我们的流量数据库相当大。 我们每天有超过1000列火车,我们从不同的来源收集分钟或事件基地(火车到达车站,汽车或车辆组成已经改变等) db实际上在MSSQL中有超过100M的行。 事实证明,90%的数据是冗余的,只有时间,车站,火车经过的地方和距离都在变化。 插入/更新和相当简单的查询都没问题。 但是,当涉及到进行统计查询时(例如,在给定时间段内运行的特定列车/汽车/车辆的KM数量),响应时间以及查询复杂性变得重要。 (需要1-2秒范围内的响应)。
我可以使用哪种DB /存储解决方案进行此类查询? 我们有一个用于报告的python(Flask)前端,因此具有python接口的数据库解决方案是必须的。
我考虑过Pytables / pyhdf5,但我对可靠性有一些顾虑(我不能保证只有在进程上会写文件,因此根据文档,数据损坏的风险很高。而且我负担不起数据。
旁注:我对数据库优化非常好,所以我对关系限制非常了解。
想法?