多维空间的规范化,这是什么算法?

时间:2015-11-02 13:34:14

标签: algorithm statistics weka nearest-neighbor

我不是一位训练有素的统计学家,所以我为某些单词的错误用法道歉。我只是想从Weka最近邻算法中获得一些好的结果。我将在我的解释中使用一些冗余作为尝试获得概念的手段:

有没有办法规范化多维空间,以便任意两个实例之间的距离始终与因变量的影响成正比?

换句话说,我有一个统计数据集,我想使用“最近邻居”算法来查找与指定测试实例最相似的实例。不幸的是,我的初始结果是无用的,因为两个非常接近的属性与因变量弱相关会错误地偏向距离计算。

例如,假设您正在尝试根据汽车数据库找到给定汽车的最近邻居:品牌,型号,年份,颜色,发动机尺寸,车门数量。我们直观地知道,品牌,型号和年份对价格的影响大于门的数量。因此,具有相同颜色,门数的汽车可能不是具有不同颜色/门但具有相同品牌/型号/年的汽车的最近邻居。可以使用哪些算法在最近邻距离计算中适当设置每个自变量的权重,以使距离与因变量在统计上成比例(相关,无关)?

应用程序:这可以用于在购物网站上更准确地“向我显示与此其他产品类似的产品”。回到汽车的例子,这将有相同品牌和型号的汽车冒泡到顶部,一年用作打破平局,然后在同一年的车内,它可能排序具有相同数量的汽缸(4或6)在具有相同数量的门(2或4)之前。我正在寻找一种算法方法来获得类似于我直观地知道的权重(make >> model >> year >> engine >> doors)并且实际上为它们分配数值以用于最近邻搜索类似汽车。

更具体的例子:

数据集:

Blue,Honda,6-cylinder
Green,Toyota,4-cylinder
Blue,BMW,4-cylinder

现在找到类似于:

的汽车
Blue,Honda,4-cylinder

在这个有限的例子中,它会匹配Green,Toyota,4-cylinder之前的Blue,Honda,6-cylinder,因为这两个品牌在统计上几乎可以互换,而圆柱体是价格而不是颜色的更强决定因素。宝马会匹配较低,因为该品牌往往会使价格翻倍,即将物品放置更远的距离。

最后注意:价格在算法培训期间可用,但在计算过程中不可用。

3 个答案:

答案 0 :(得分:0)

可能你应该看看Solr / Lucene这个目标。 Solr提供基于相似性搜索的字段值频率,并且它已具有用于查找类似项的功能MoreLikeThis

答案 1 :(得分:0)

对于这种情况,也许最近邻居不是一个好的算法?由于您想要对离散值进行分类,因此定义合理的距离变得非常困难。我认为类似C4.5的算法可能更适合您描述的应用程序。在每一步中,算法都会优化信息熵,因此您将始终选择能够为您提供最多信息的功能。

答案 2 :(得分:0)

在IEEE网站上找到了一些东西。该算法称为DKNDAW("动态k-最近邻居,距离和属性加权")。我无法找到实际的论文(可能需要付费订阅)。假设属性权重由算法本身计算,这看起来很有希望。