我们希望使用Relational数据库设计数据存储,保留请求消息(http / s,xmpp等)日志。为了生成日志,我们使用基于Apache synapse esb的解决方案。但是,由于我们只想存储日志并仅为维护问题读取日志,因此读/写比率会很低。 (写入计数将是密集的,因为系统将接收许多要记录的消息。)我们考虑使用Cassandra来实现其分布式特性和集群功能。但是,对于Cassandra数据库模式,使用过滤器的搜索查询很困难,总是需要二级索引。
为了简短起见,我的问题是我们是否应该尝试使用mysql的集群解决方案,或者使用带有过滤器的搜索查询的Cassandra和合适的模式设计?
答案 0 :(得分:0)
如果您希望对半结构化或非结构化数据进行实时分析,可以使用Cassandra + Hadoop集群。由于Cassandra wiki本身建议使用Datastax Brisk版本,因为这种架构。值得一试
另一方面,如果您希望对原始日志进行实时查询以获取小数据集。防爆。
select useragent from raw_log_table where id='xxx'
然后,您应该对行键和列键设计进行大量研究。因为这决定了查询的复杂性。最好看看这里的人们的案例研究http://www.datastax.com/cassandrausers 1
此致 泰米尔语