我正在开发一个项目,我将数据存储在Sql Server数据库中以进行数据挖掘。我是数据挖掘的第一步,收集数据。 所有数据都存储在当前存储在SQL Server 2008 db中。目前,数据存储在几个不同的表中。该表每天增加大约100,000行。 按照这个速度,该表在大约一个月的时间内将有超过百万条记录。
我还针对这些表运行某些select语句,以获得最新的实时统计信息。
我的问题是如何在不影响查询性能的情况下处理如此大的数据。我已经添加了一些索引来帮助select语句。 一种想法是在数据库达到一定数量的行时归档数据库。这是最好的解决方案吗?
任何人都可以推荐处理此类数据的最佳方法,请记住,如果可能的话,我想要进行一些数据挖掘。 感谢
更新:我还没有足够的研究来决定使用哪种工具进行数据挖掘。我的第一个任务是收集相关信息。然后进行数据挖掘。 我的问题是如何管理不断增长的表,以便运行选择它不会导致性能问题。
答案 0 :(得分:0)
您将使用什么工具进行数据挖掘?如果您使用的是使用关系源的工具,那么您可以检查它提交给数据库的worlkload并根据它进行优化。因此,在实际开始进行数据挖掘之前,您不知道需要哪些索引。
如果您使用的是SQL Server数据挖掘工具,那么它们几乎可以运行SQL Server多维数据集(预先聚合数据)。因此,在这种情况下,您需要考虑哪种数据结构可以让您快速轻松地构建多维数据集。
该数据结构将是星型模式。但是需要额外的工作才能将它变成星型模式,并且在大多数情况下,您可以从规范化/ OLAP结构构建一个多维数据集。
因此,假设您使用的是SQL Server数据挖掘工具,下一步是构建您现在拥有的表的多维数据集,并查看您遇到的挑战。