大数据= 1TB每年增加10%。 模型很简单..一个有25列的表。 没有与其他表联接..
我希望对25列的子集进行简单的查询过滤。
我猜测过滤列上带有索引的传统SQL存储是必要的。 Hadoop过度使用并没有意义,因为这是实时服务。蒙戈?像pentaho这样的双引擎?
有什么建议吗?
答案 0 :(得分:3)
传统的解决方案似乎确实听起来不错,除非你所描述的真正简单的模型没有任何重大变化。
NoSQL听起来不是BI /报告的最佳选择。
获得一个好的硬件。花时间进行性能测试并构建所有必需的索引。实施适当的新数据上传策略。根据您的需求和性能测试在PostgreSQL中实现表级partitioning。
P.S。如果我现在有机会从ORACLE / DB2切换,我肯定会选择PostgreSQL。
答案 1 :(得分:1)
我建议在这里调查Infobright - 它是基于列的& amp;压缩,所以你不会存储完整的TB,有一个开源版本,所以你可以尝试它而不被一群销售人员调用(但上次我看起来OSS版本缺少一些非常有用的东西,所以你可能最终想要许可证)。上次我试过它,它看起来像MySQL这样的外部世界,所以不难集成。当我上次检查时,它是面向单一服务器的,并声称在单个服务器上最多可以使用50TB。我想如果你决定向那个方向前进,那么Infobright可以坐在Pentaho后面。
有些事情是因为它非常接近于没有管理员 - 没有手动索引或索引维护。
答案 2 :(得分:0)
听起来像列商店会有所帮助。取决于你如何处理插入,以及你是否需要进行更新。但如果你要商业化,那么除了infobright,然后向外检查,它更快,价格相近。
如果您想要免费/开源,那么请查看Luciddb - 文档不多,但它的功能非常好!
如果您想要令人难以置信的速度,请向外检查。我认为这与infobright的价格差不多,但要快得多。