应用错误收集

我正在开发一个项目，我将数据存储在Sql Server数据库中以进行数据挖掘。我是数据挖掘的第一步，收集数据。所有数据都存储在当前存储在SQL Server 2008 db中。目前，数据存储在几个不同的表中。该表每天增加大约100,000行。按照这个速度，该表在大约一个月的时间内将有超过百万条记录。

我还针对这些表运行某些select语句，以获得最新的实时统计信息。

我的问题是如何在不影响查询性能的情况下处理如此大的数据。我已经添加了一些索引来帮助select语句。一种想法是在数据库达到一定数量的行时归档数据库。这是最好的解决方案吗？

任何人都可以推荐处理此类数据的最佳方法，请记住，如果可能的话，我想要进行一些数据挖掘。感谢

更新：我还没有足够的研究来决定使用哪种工具进行数据挖掘。我的第一个任务是收集相关信息。然后进行数据挖掘。我的问题是如何管理不断增长的表，以便运行选择它不会导致性能问题。

您将使用什么工具进行数据挖掘？如果您使用的是使用关系源的工具，那么您可以检查它提交给数据库的worlkload并根据它进行优化。因此，在实际开始进行数据挖掘之前，您不知道需要哪些索引。

如果您使用的是SQL Server数据挖掘工具，那么它们几乎可以运行SQL Server多维数据集（预先聚合数据）。因此，在这种情况下，您需要考虑哪种数据结构可以让您快速轻松地构建多维数据集。

该数据结构将是星型模式。但是需要额外的工作才能将它变成星型模式，并且在大多数情况下，您可以从规范化/ OLAP结构构建一个多维数据集。

因此，假设您使用的是SQL Server数据挖掘工具，下一步是构建您现在拥有的表的多维数据集，并查看您遇到的挑战。

使用Sql Server进行数据挖掘

1 个答案: