标签: machine-learning statistics dataset classification
当我们努力解释机器学习算法的准确性时,许多作者建议从数据的复杂程度开始。
我正在研究数据复杂度测量,例如:类可分性,重叠和异常值测量,它们会影响分类器的性能。
例如,如果类更可分,则分类器的准确性也会增加,分类器花费的时间也会减少。
我想计算数据集中每个数据点的异常值度量,并结合这些度量并对数据集中的异常值进行一个度量。如何使用k最近邻居或使用k表示聚类技术来计算异常值。 Thanx提前..