我在这里运行一点测试/ poc。
我需要每天将数百万行加载到数据库中。并且它不是日志文件数据,我有逗号分隔的行(列),它们完全适合关系数据库。
加载后,我需要允许一个非常快速的搜索机制。看一下Google围绕它的bigtable和结构的实现,我最初想到使用与hbase集成的hive。 Hive因为它的查询功能。加载效果很好,比RDBMS perf更好。然而,查询瓶颈,这也是首先寻找RDBMS替代品的原因,也是hive的继续。
测试用于查询的配置单元并不是真正的性能。也许我需要寻找其他选择..
还有别的吗?我可以放在hbase之上的任何其他工具/解决方案/库?甚至没有hbase? (我将hbase视为RDBMS的替代方案,转向dist计算)
建议请...
答案 0 :(得分:3)
如果您需要常规搜索功能,则可能需要查看Solr或ElasticSearch等解决方案。如果您为所需的查询(密钥设计)准备数据而不是一般搜索,HBase运行良好。您还可以查看结合了Solr和HBase的Lily
答案 1 :(得分:1)
你遇到的问题是,hive将大多数查询作为mapreduce程序运行,这些程序本身就很慢。
如果你编写自己的程序来运行适当的扫描,然后自己分组,hbase可以非常快。如果你想要一种查询语言,虽然目前还没有我知道的解决方案。
很难说更多,因为您对数据的描述以及要在其上运行的查询类型非常通用。
答案 2 :(得分:1)
将MySQL用于此行数并不是不可想象的。您可以尝试使用一些测试数据,看看是否可以使用它。
答案 3 :(得分:0)
您是否看过solr或lucene型解决方案?它不是SQL解决方案,但查询语言对于某些类型的用途非常灵活,并且速度非常快。还有一些方法可以在服务器集群上进行分发,以提高性能,扩展索引的大小,或者可以处理的查询数量,或者两者兼而有之。