使用SQL Server处理大型数据集

时间:2012-10-01 15:36:58

标签: sql-server database logging sql-server-2008-express large-data

我正在寻找管理日志文件的大型数据集。我想保留每月平均150万个新事件。我过去曾使用过访问权限,虽然它显然不适用于此,管理数据集是一场噩梦,因为我不得不将数据集分成几个月。

在大多数情况下,我只需要过滤事件类型并计算数字。但在我对数据导入方面做了大量工作之前,我想看看是否有人可以验证这个SQL Server是一个不错的选择。我应该避免和存档条目的入口限制吗?有没有归档条目的方法?

另一部分是我从多个来源输入日志,有了这么多的条目,将它们全部放在同一个表中是明智的,还是每个来源都有自己的表,以便更快地进行查询? / p>


...编辑
没有连接,大约10列。数据将通过视图进行过滤,我很想知道基于一列或多列过滤的select查询的结果是否会有合理的响应时间?创建一组视图是否可以加快频繁查询的速度?

2 个答案:

答案 0 :(得分:5)

根据我的经验,SQL Server是一个很好的选择,你可以期待SQL Server比MS-Access更好的性能,通常有更多的优化方法供您使用。

我可能会继续把这些东西放到SQL Server Express中,如你所说,希望安装在你可以使用的最好的机器上(虽然你确实只提到了2GB的RAM)。使用一个表只要它只代表一件事(我认为飞行员的飞行日志和软件错误日志不会在同一个“日志”表中,作为一个荒谬的人为例子)。检查你的表现。如果这是一个问题,请继续使用您的SQL Server版本提供的任意数量的优化技术。

以下是我最初可能会这样做的事情:

如果您在日志表上使用PK,则使用非群集主键创建表 - 我通常使用identity column为我提供有保证的事件顺序(与重复日期时间不同)并显示日志插入失败(缺少身份)。在主日期时间列上设置clustered index(您提到您已按月拆分为单独的表,因此我假设您也会以这种方式查询)。如果你经常在这个表上运行一些查询,那么一定要查看它们,但不要指望通过这样做来加速。您很可能希望根据这些查询中的where子句查看indexing your table。在这里,您将为SQL Server提供有效运行这些查询所需的信息。

如果您无法通过优化查询,索引,使用尽可能小的数据类型(特别是在索引列上)并在合适的硬件上运行来获得所需的性能,那么可能需要尝试partitioned views(这需要某种形式的持续维护)或partitioning your table。不幸的是,SQL Server Express may limit you关于你可以用分区做什么,你必须决定是否需要转移到more feature-filled edition的SQL Server。您始终可以使用Enterprise评估或开发人员版本测试分区。

<强>更新

  
    

在大多数情况下,我只需要过滤事件类型并计算数字。

  

由于过去的日志没有变化(有点像过去的销售数据),因此在这种情况下,存储过去的总数是一种常用的策略。您可以创建一个表格,该表格只存储每个月的计数,并且每月(或一周,一天等)使用某种计划的作业插入一次新计数。使用日期时间列上的聚簇索引,SQL Server可以更轻松地从实时表中聚合当前月份的数字,并将它们添加到存储的聚合中,以显示总计数的当前值等。

答案 1 :(得分:1)

对我来说听起来像一张桌子,需要在你要过滤的列集上完成索引。限制通过视图访问通常是一个好主意,并确保您的索引实际上得到使用。

将每个源放入自己的表中将在以后的查询中使用UNION,并且SQL-Server不是很好地优化UNION查询。

“存档”条目当然可以手动完成,方法是将日期范围内的条目移动到另一个表(可以存在于另一个磁盘或数据库中),或者使用“分区”,这意味着您可以放置​​部分不同磁盘上的表(例如,由日期范围定义)。在规划SQL-Server安装时,必须规划分区。

请注意,Express版本限制为4GB,因此每月150万行可能会出现问题。

如果使用索引,我有一个像你这样的表,有20M行,查询甚至加入的问题都很少。