应用错误收集

我有带宽数据，可以按吨位和小时数标识协议使用情况。根据协议，您可以确定该特定协议在该小时内何时只是连接某项与实际使用（1000位相比一百万或数十亿位）。问题是，当查看每个协议时，它们都严重偏右。其中80％的记录是刚刚连接的或我所说的“噪音”。

我要做的任务是分离出这种噪音，仅在实际使用协议时集中精力。我的同学都只是手动执行此操作，并且删除门槛较低。我希望有一种方法可以自动执行此操作并使用统计信息，而不是仅仅选择“看起来不错”的阈值。我们有大约30种不同的协议，每种协议具有表示“噪声”的位数，即下载原型可能具有1000位，而消息传递应用程序在连接但未完全使用时可能具有75位。类似地，它们将具有不同的方式，并且在下载平均值为215,000,000和消息传递值为5,000,000之间存在差距。它们之间没有任何固定模式。

此“噪音”具有许多连接，但仅占使用的总带宽的1-3％，这就是为什么我们要负责确定实际使用情况与被动使用情况的原因。

我不需要任何实际的代码，因为我想练习自己的实现和解决方案。但是统计方法的逻辑，过程或名称将非常有帮助。

您是否标记了示例，并且带宽之外还有其他数据吗？做到这一点的一种方法是，如果您有大量的数据知道使用或不使用，则训练某种ML分类器。如果您有足够的数据，也可以在无人监督的情况下执行此操作。首先，一个简单的朴素贝叶斯分类器非常适合二进制解决方案。可能您不在了，NB是垃圾邮件检测的基础（无论是否为垃圾邮件）。因此，无论是否有噪声，您的情况也应该起作用，但是如果除了要训练的带宽之外还有其他数据，您将获得更可靠的结果。另外，我想知道是否没有办法改善您的帖子标题，以使其更快地传达您的问题。

确定带宽数据中的“噪声”

1 个答案: