Question

我不是一位训练有素的统计学家，所以我为某些单词的错误用法道歉。我只是想从Weka最近邻算法中获得一些好的结果。我将在我的解释中使用一些冗余作为尝试获得概念的手段：

有没有办法规范化多维空间，以便任意两个实例之间的距离始终与因变量的影响成正比？

换句话说，我有一个统计数据集，我想使用“最近邻居”算法来查找与指定测试实例最相似的实例。不幸的是，我的初始结果是无用的，因为两个非常接近的属性与因变量弱相关会错误地偏向距离计算。

例如，假设您正在尝试根据汽车数据库找到给定汽车的最近邻居：品牌，型号，年份，颜色，发动机尺寸，车门数量。我们直观地知道，品牌，型号和年份对价格的影响大于门的数量。因此，具有相同颜色，门数的汽车可能不是具有不同颜色/门但具有相同品牌/型号/年的汽车的最近邻居。可以使用哪些算法在最近邻距离计算中适当设置每个自变量的权重，以使距离与因变量在统计上成比例（相关，无关）？

应用程序：这可以用于在购物网站上更准确地“向我显示与此其他产品类似的产品”。回到汽车的例子，这将有相同品牌和型号的汽车冒泡到顶部，一年用作打破平局，然后在同一年的车内，它可能排序具有相同数量的汽缸（4或6）在具有相同数量的门（2或4）之前。我正在寻找一种算法方法来获得类似于我直观地知道的权重（make >> model >> year >> engine >> doors）并且实际上为它们分配数值以用于最近邻搜索类似汽车。

更具体的例子：

数据集：

Blue,Honda,6-cylinder
Green,Toyota,4-cylinder
Blue,BMW,4-cylinder

现在找到类似于：

的汽车

Blue,Honda,4-cylinder

在这个有限的例子中，它会匹配Green,Toyota,4-cylinder之前的Blue,Honda,6-cylinder，因为这两个品牌在统计上几乎可以互换，而圆柱体是价格而不是颜色的更强决定因素。宝马会匹配较低，因为该品牌往往会使价格翻倍，即将物品放置更远的距离。

最后注意：价格在算法培训期间可用，但在计算过程中不可用。

Answer 1

可能你应该看看Solr / Lucene这个目标。 Solr提供基于相似性搜索的字段值频率，并且它已具有用于查找类似项的功能MoreLikeThis。

Answer 2

对于这种情况，也许最近邻居不是一个好的算法？由于您想要对离散值进行分类，因此定义合理的距离变得非常困难。我认为类似C4.5的算法可能更适合您描述的应用程序。在每一步中，算法都会优化信息熵，因此您将始终选择能够为您提供最多信息的功能。

Answer 3

在IEEE网站上找到了一些东西。该算法称为DKNDAW（＆＃34;动态k-最近邻居，距离和属性加权＆＃34;）。我无法找到实际的论文（可能需要付费订阅）。假设属性权重由算法本身计算，这看起来很有希望。

多维空间的规范化，这是什么算法？

3 个答案: