这个tomek链接实现有问题吗?

时间:2016-11-05 18:53:00

标签: machine-learning

Tomek Links的算法定义指出:“假设{E1,...,En}⊂Rk是一个数据集,每个Ei只有两个标签中的一个+或 - 。一对(Ei,Ej)称为Tomek链接如果Ei和Ej具有不同的标记,并且没有El使得d(Ei,El)< d(Ei,Ej)或d(Ej,El)< d(Ei,Ej)“,其中d (x,y)是x和y之间的距离。

我创建了一个“玩具”数据集,因此我可以更好地理解Tomek链接(代码附加)。我用它的函数ubTomek使用了包“unbalanced”。函数实现(它在GitHub上)是它查找少数类点的最近邻居,如果它们属于多数类 - 这对夫妇被声明为Tomek链接。 我认为他们遗漏了一些东西,因为他们只是检查d(Ei,Ej),他们也应该检查d(Ej,Ei)。
关于这个的任何意见?如果我是对的 - 我会向开发人员发送一条关于错误的消息,如果我错了 - 我会更好地理解Tomek Links。

0 个答案:

没有答案