scikit-learn的MDS的正确输入是什么?

时间:2014-08-07 21:01:25

标签: python scikit-learn multi-dimensional-scaling

我希望这是发布的正确位置 - 如果没有,我愿意改为SO。

无论如何,我使用MDS来帮助我找到数据集的二维表示。基本上,这些是多年来氨基酸残基的pKa值。蛋白质数据的价值 - 相同规模的十进制数,其核心。有很多位置(约600行),有很多年(~12列)。

我的问题是:MDS是数据矩阵(年份与职位)的正确输入,还是我可以输入相关矩阵(年与年)?我问,因为API文档与书面描述冲突。

API文档说数据矩阵:http://scikit-learn.org/stable/modules/generated/sklearn.manifold.MDS.html#sklearn.manifold.MDS(即n_samples,n_features)。

书面说明"输入相似度矩阵":http://scikit-learn.org/stable/modules/manifold.html

1 个答案:

答案 0 :(得分:10)

如果您将dissimilarity='euclidean'传递给初始估算器(或默认情况下),它将采用数据矩阵并为您计算欧几里德距离矩阵。

如果您通过dissimilarity='precomputed',则需要使用相异矩阵。

但是,文件确实并不是非常明确的;我确定一个拉取请求会在X参数的描述中添加一条简短的注释,并澄清'euclidean'是默认值(我必须检查源),将被接受。< / p>