最佳更新频率

时间:2012-06-04 20:20:45

标签: computer-science data-mining

我有一个经常执行数据挖掘操​​作的数据集。我想基于数据更新的频率来执行数据挖掘操​​作的频率。是否有任何方程式可以根据数据更新频率给出最佳挖掘频率?如果没有,我想得到自己的,我该怎么做呢?如果我想包含更多变量怎么办?如果有任何可用的话,我只需要一些阅读材料的指示。谢谢。

2 个答案:

答案 0 :(得分:0)

这不是一个真正的CS问题,即使它听起来像一个(除非它是一个家庭作业问题......我会假设你有一个现实世界的问题需要解决)。我假设如果您是“数据挖掘”,那么您所做的不仅仅是针对实时OLTP数据库运行查询(例如在单独的系统上设置多维数据集)。它将归结为用户问题。答案将取决于:

  • 您捕获的数据中的模式(是周期性的,即每小时/每天/每周)。更新频率超过一个周期可能没有用。同样,如果它是基于事件的,并且事件不会持续发生,那么比传入事件更频繁地更新挖掘系统将毫无用处。
  • 您是否可以收集数据以将其转换为数据挖掘设置,而不会影响用户或系统写入原始数据?如果没有,则需要在系统负载较低时执行此操作。如果您正在分析日志或使用自动复制(即oracle流),那么您可能不会受到限制。
  • 什么时候进行数据挖掘的人员/流程可以停止并接受新的数据集......你不能只是从正在进行的工作中解决问题并替换他们正在处理的数据。

答案可能不是你可以“衍生出来的”。它将来自两端用户(自动或人工)的限制。

答案 1 :(得分:0)

不确切知道您的数据是什么样的,或者您的需求是什么 - 通常我们数据到

  1. 在数据中找到模式
  2. 创建一个模型,以便根据我们的(过去)数据做出未来决策
  3. 如果

    ,你只需要进一步的数据
    1. 您已经收集了足够的“新”数据,您可以找到新的模式
    2. 您收集了足够的“新”数据,表明您所拥有的模型不再预测新现象
    3. 您已经开发了一种新技术,或者修改数据的方式使得重新执行数据挖掘更有意义
    4. 一些盲目的猜测:

      1. 每次收集当前数据集的5%的新数据时,我会执行操作,即如果你有10 GB,则在收集.5 GB后执行操作(假设这是可行的!(不到一天) ))
      2. 如果您没有按照这种规模收集新数据,那么每周运行一次操作应该相对便宜并且肯定会让您放心。
      3. 如果您以每天千兆字节或更多的比例收集数据,那么瓶颈就是操作的成本。如果操作超过一天,请使用您的判断,也许每月一次。在这种规模下,操作本身将开始耗费计算能力,公司应聘请专家。
      4. 就公式而言,没有,但我会引用您关于Statistical Significance的维基百科文章。