我正在尝试使用Microsoft ML包构建一个单类SVM模型进行新颖性检测,并设法获得一些结果。使用测试数据进行预测的结果包含“得分”列,我对这里的含义不太清楚。当我在网上搜索时,对此没有很好的解释。
作为机器学习的初学者,我猜测得分表示数据点是真正异常的概率 - 因为分数越高,数据输入异常的可能性越大。如果我错了,请纠正我,我也想知道确定阈值的算法。我知道一些,比如GA,但对如何选择合适的使用方式感到困惑。
谢谢!
答案 0 :(得分:1)
你是对的,并且得分越高 - 它越可能是异常"。为了找到阈值,我使用rxLinePlot绘制如下图:plotting scores in oneclasssvm
从上图可以清楚地看出,阈值是大于0.1的任何值。这样的图将有助于根据您的用例确定阈值。如果您希望在计算机上生成此图表,则此处是完整的R代码:https://gist.github.com/ramnov/b08224b06c75d613688f0c8d61511d9b