我有点困惑 数据分发与检测新颖性之间是否有联系,我的意思是数据分发在新颖性,噪声或异常值之间是否可以有所不同?为了发现它们!
还有一点需要回答: “训练数据和测试数据来自相同的分布或相同的特征空间” 那么什么时候数据分布会发生变化?当数据分布发生变化时,我应该关注哪个集合?什么地方/什么时候发生?
答案 0 :(得分:0)
我建议您从scikit-learn中阅读this。我认为这是一个很好的概述,从中您可以了解异常值检测和新颖性检测之间的区别。基本上,新颖性是“异常值”的集合,但是彼此之间如此接近,可能代表了一种新型的数据分区,而不仅仅是一些奇怪的东西。肯定的是,对于第一个这样的点,无法区分这两种可能性,但是,如果您批量处理新数据并且在异常空间中检测到高密度区域,则可能会怀疑数据有些新颖。 / p>
第二点,基本上就是concept drift的意思。