最近邻居可以根据k个最近邻居的类对新数据点进行分类。假设有数据集A包含10000个数据点。还有另一个数据集B包含1个MM数据点。目标是从数据集B中找到类似于多个预先确定的属性(特征)上的数据集A的最相似记录。 SAS有一些程序可以做到这一点,例如PROC DISCRIM,它接受训练数据并对下面的测试数据进行分类。在这种情况下,如何定义训练数据作为目的只是为了找到数据集B中看起来像数据A中每个单独记录的最相似的记录?
proc discrim data=train
method=npar k=5
testdata=toscore
testout=toscore_out
;
class y;
var x1-x10;
run;