应用错误收集

时间：2015-10-02 13:09:32

标签： data-warehouse

我们是一个运营数据仓库。我们有一个批处理控制表，其中包含以下信息

我们正在考虑建立一个警报机制，基本上会在以下任何异常情况下发出警报（通过分析过去的数据）：

解决此问题的最佳方法是什么。这是机器学习的候选人吗？

答案 0 :(得分：1)

这是机器学习的候选人吗？

不是真的。您必须存储有关处理到数据仓库中的文件的某些信息。

文件没有到达。

您必须在下一个文件到达时列出文件的时间表。如果文件延迟超过5天，则调度程序会发出警报，发送电子邮件或其他任何内容。

文件花费的时间超过平均处理时间。

将平均处理时间保留在文件计划中。当前处理时间与平均处理时间相差超过2个标准差时，发出警报。

文件的行行数非常低或非常高

保留文件计划中的平均行数。当前行计数与平均行数超过2个标准偏差时，发出警报。

我从平均值中选择了2个标准偏差作为例外情况。随意调整它以对偏差或多或少敏感。

答案 1 :(得分：0)

1）首先从人类学习开始。

绘制已处理文件的时间序列（行号作为处理时间的函数）。

绘制行号的分布（或直方图）

绘制处理之间的时间间隔的分布（或直方图）

根据行数绘制处理时间的函数。

你看到时间序列中的一些模式吗？是否有一天的时间resp。工作日周期？你看到了一种趋势吗？

处理时间的函数是连续函数还是简单的点的散点图？

很明显，您会看到一些模式和阈值，您可以轻松地实施检查。

2）收集失败历史

使用处理状态扩展元数据 - 确定或导致失败。这将使您能够以两种颜色（正/负情况）绘制图形，并帮助您决定是否可以在它们之间绘制阈值线（曲线）。