我有一个21名学生的表(A1 ... A21)和他们的25个特征(表1),我有另一个矩阵(表2),显示学生是否喜欢另一个学生(0表示喜欢,100表示不喜欢)。
我怎样才能找到最少的。可以给我类似于可比性矩阵的空间距离的特征?
例如: 如果我们得到具有特征C1,C3,C4,C5,C10的5个维度,那么当为这些特征绘制时,点A1,... A21将具有比例距离作为可比性矩阵。
例如,如果A3和A2在5D特征空间中它们之间的距离很小,那么它们在可比性矩阵中将具有相应的较小距离/值。
答案 0 :(得分:1)
你可以把这看起来像一个众所周知的统计问题,但是你已经做出了假设(类似的学生彼此喜欢),我会做出进一步的假设,并且大多数统计问题的解决方案都不是很受尊重,所以你应该用一点盐来取得结果。
有21名学生,你有21 * 20/2 = 210对学生。将每对视为单独的观察。您对该对具有可比性值。对于每个对,计算每个特征,两个学生中每个学生的值之间差异的绝对值。这为每个观察提供了25个元素的向量。现在,您将尝试预测210个25个长绝对差异向量的可能性。
此过程以all-subsets回归和逐步回归的名义进行。请参阅https://www.r-bloggers.com/variable-selection-using-automatic-methods/和https://www.r-bloggers.com/variable-selection-using-automatic-methods/。计算这些的一种方法是使用来自https://www.r-project.org/的免费开源统计软件包R.
对于每个可能的变量选择,您可以使用线性回归来预测绝对差异向量的可感知性。从该线性回归中,您可以衡量预测的好坏程度,以及变量的特定选择是否有益。所有子集回归都使用分支上的变量并对每个N计算出大小为N的变量集合,这些变量预测得最好。逐步回归以可能不完整的变量选择开始并执行一种爬坡,在每个阶段添加或减去集合中的一个变量,尝试所有变量并选择给出最佳预测的变量。通常,您从没有变量开始并一次添加一个变量,或者启动所有变量,并一次删除一个变量。逐步选择并不能保证找到所有子集回归将找到的绝对最佳变量选择,但所有子集回归都可能非常昂贵。
由此您将获得最佳的变量选择(可能是每个变量数量的最佳选择),您可能会得到一些统计显着性的指示。你已经打破了很多关于多重测试和独立性的规则(将21个观察值扩展到210个),你不应该认真对待任何统计学意义。如果你想知道你是在查看真实信息还是漂亮的随机噪声,那么自动执行程序,看看它在假数据上看起来是什么样的,根本没有任何潜在的影响,也许是你构建的假数据因为你已经构建了数据而产生潜在影响的数据。另请参阅https://en.wikipedia.org/wiki/Bootstrapping_(statistics)和https://en.wikipedia.org/wiki/Resampling_(statistics)#Permutation_tests