所以我设计了一个基本的SQL数据库,它将机器通过SSIS输出的数据导入到SQL中,进行一些转换,并最终得到我们每15分钟生成多少内容。
现在我们希望能够报告每个运营商。所以我有另一个包含运营商和运营商号码的表格,我正在试图弄清楚如何跟踪这一点,最终的目标是向我的老板提供他的员工如何做的图表和图表。
现在的问题是: 我打算用日期,机器编号,操作员编号格式化一个表,然后在一天中为每个15米段创建一个列,但最终每年会有一百万+数据点,这显然会失控。
然后我在想,日期,机器编号,用户#,开始和停止时间。但是如果班次超过午夜,或者如何查询开始/停止时间之间的时间,我不知道如何让它翻到第二天,简单的东西我确定但我是新来的。我需要利用时间而不仅仅是“转变”,因为这可能会改变,人们会提前回家等等。事情发生了。
所以问题是:如何为工作计划格式化表格最佳做法,以及如何按上述方式查询表格?
答案 0 :(得分:1)
首先,每年一百万行并不是很多。 SQL数据库经常进入数十亿行。与现代驱动器尺寸相比,存储要求无关紧要。正确编制索引后,性能不会成为问题。
事实上,我会说考虑不考虑时间段。使用时间戳记录每个数据点。使用BETWEEN
等SQL运算符来获取您喜欢的任何时间段。它更简单。它更灵活。它需要更多的空间,但空间并不是真正的问题。通过适当的索引,它不会成为性能问题。使用开发人员节省的资金为数据库购买更好的硬件,比如更多RAM或SSD。或者转移到云数据库。
只需确保您构建系统以封装架构的详细信息,可能使用model,并确保您有办法安全地更改架构,例如使用migrations。然后,如果您需要稍后重新构建模式,则可以执行此操作,而无需搜索可能使用该表的每一段代码。
也就是说,你可以采取一些简单的措施来减少行数。
当一件东西没有产生任何东西时,可能会有很多时期。如果在此期间没有生成任何内容,请不要存储行。如果只存储生成的每个东西的时间戳,这些间隙通常会出现。
您可以通过将句点放在自己的表中并引用它们来节省少量空间和性能。因此,不是每个表都有多余的start
和end
日期时间列,而是有一个period
列引用了period
表start
和end
列。虽然这会减少一些重复,但我不确定这是否值得复杂。
最后,在为假设的性能问题添加一堆复杂性之前,做最简单的事情并对其进行基准测试。使用一堆测试数据加载数据库,查看它的执行情况,并从那里进行优化。