数据流/爬行架构设计

时间:2012-11-16 20:19:24

标签: architecture solr hbase

我不确定这是否是这个问题的正确论坛,但如果能够指出正确的方向,那将会很棒。我们一直在使用MySql和Solr的组合来满足我们公司的所有全文和查询需求。但是随着我们的客户不断增长,数据量和MySql都不会被证明是存储/查询的正确选择。

我一直在寻找Solr Cloud,它看起来真的令人印象深刻,但不确定我们是否应该放弃我们的存储系统。所以,我一直在探索DataStax,但商业选择是不可能的。所以我们考虑使用hbase来存储数据,同时将数据索引到Solr云中,但由于很多原因,这种设计似乎并不令人信服(也见于Lilly的基础)。

  1. 是否建议只使用多个复制的用户Solr云或hbase-solr似乎是不错的选择

  2. 将Solr Shard和Hbase节点保持在同一台机器上需要多少压力

  3. 是否需要计算存储500-1000万条记录所需的机器配置类型。其中大部分都是社交数据(Twitter / Facebook /博客等)和多少分片。
  4. 此致

    Ayush

1 个答案:

答案 0 :(得分:0)

据我所知,最好将HBase和一般NoSQL作为混合解决方案与MySQL和Oracle等关系数据库结合使用,这正是Facebook和其他人所做的。它们不会完全离开关系数据库。 另一点是MySQL失败后的解决方案不一定是HBase。您可以尝试使用专为大规模数据存储而设计的Oracle。

抱歉英语不好。