我有带宽数据,可以按吨位和小时数标识协议使用情况。根据协议,您可以确定该特定协议在该小时内何时只是连接某项与实际使用(1000位相比一百万或数十亿位)。问题是,当查看每个协议时,它们都严重偏右。其中80%的记录是刚刚连接的或我所说的“噪音”。
我要做的任务是分离出这种噪音,仅在实际使用协议时集中精力。我的同学都只是手动执行此操作,并且删除门槛较低。我希望有一种方法可以自动执行此操作并使用统计信息,而不是仅仅选择“看起来不错”的阈值。我们有大约30种不同的协议,每种协议具有表示“噪声”的位数,即下载原型可能具有1000位,而消息传递应用程序在连接但未完全使用时可能具有75位。类似地,它们将具有不同的方式,并且在下载平均值为215,000,000和消息传递值为5,000,000之间存在差距。它们之间没有任何固定模式。
此“噪音”具有许多连接,但仅占使用的总带宽的1-3%,这就是为什么我们要负责确定实际使用情况与被动使用情况的原因。
我不需要任何实际的代码,因为我想练习自己的实现和解决方案。但是统计方法的逻辑,过程或名称将非常有帮助。
答案 0 :(得分:0)
您是否标记了示例,并且带宽之外还有其他数据吗?做到这一点的一种方法是,如果您有大量的数据知道使用或不使用,则训练某种ML分类器。如果您有足够的数据,也可以在无人监督的情况下执行此操作。首先,一个简单的朴素贝叶斯分类器非常适合二进制解决方案。可能您不在了,NB是垃圾邮件检测的基础(无论是否为垃圾邮件)。因此,无论是否有噪声,您的情况也应该起作用,但是如果除了要训练的带宽之外还有其他数据,您将获得更可靠的结果。另外,我想知道是否没有办法改善您的帖子标题,以使其更快地传达您的问题。