为此用例选择的最佳数据库和硬件

时间:2012-06-02 18:32:19

标签: mysql mongodb bigdata database nosql

我将拥有一个包含uuids,年龄,性别,家庭收入和12个此类字段的用户的表格数据库。其中约有4千万至5千万。我需要根据年龄范围,收入范围等进行查询,并获取uuid的列表。如果连接,每行应该大约400个字符。将400字节乘以50Mil得到17 - 18 GB约。它会慢慢增长。

这将是保存此数据并执行快速查询的最佳数据库系统。 Mongo还是MySQL?还应该最好保留哪种硬件。

此外,有人可以根据经验告诉mySQL或Mongo将采取的查询时间。我需要在此基础上设计整个系统的其他组件的架构。

2 个答案:

答案 0 :(得分:2)

我不会说40-50万条记录或17-18GB会被视为“大”。任何关系数据库都应该足够了。

任何现代服务器都足够了。 Windows,Linux - 选择您最熟悉的那个。我要说64位是必需的。添加enough RAM,您就可以将整个内容保存在内存中。

没有人可以告诉你查询时间,因为它取决于太多因素:硬件,架构,索引等。最好的办法是自己花时间看看。

我认为你最大的问题是按范围查询。这听起来不像事务数据库,更像是数据挖掘仓库。也许具有时间,位置,收入等维度的星型模式将更适合您尝试的操作。

答案 1 :(得分:0)

没有理由将所有信息存储在单个表中,尤其是那些包含许多行的表。对于这么大的项目,我强烈建议学习关系数据库的工作方式以及索引的工作原理。你要实现这个的方式,在你投入的任何数据库或硬件上都会变慢。如果您将其设计为关系数据库,使用几个单独的表来存储内容并使用外键来访问其他表,那么您将大大提高性能。

This is very dry,但必不可少。你应该真的尝试很好地理解它。

此外,您应该阅读indexing。每个数据库都略有不同,因此您实现它的方式取决于您选择的数据库。

我的意思是你会大大提高你的表现。我已经看到并重新设计了耗时15到20分钟的查询,通过关系数据库设计,索引和最佳查询设计对它们进行了优化,并将它们降低到毫秒级。