应用错误收集

最近邻居可以根据k个最近邻居的类对新数据点进行分类。假设有数据集A包含10000个数据点。还有另一个数据集B包含1个MM数据点。目标是从数据集B中找到类似于多个预先确定的属性（特征）上的数据集A的最相似记录。 SAS有一些程序可以做到这一点，例如PROC DISCRIM，它接受训练数据并对下面的测试数据进行分类。在这种情况下，如何定义训练数据作为目的只是为了找到数据集B中看起来像数据A中每个单独记录的最相似的记录？

proc discrim data=train
method=npar k=5
testdata=toscore
testout=toscore_out
;
class y;
var x1-x10;
run;

使用最近邻算法来查找相似的人口

0 个答案: