是否有一种可视化高维数据的简单方法?

时间:2011-04-25 13:50:51

标签: python language-agnostic graph machine-learning

有人可以告诉我是否有一种很好的(简单的)方法可视化高维数据?我的数据目前是21维,但我想知道它是密集的还是稀疏的。有没有技术来实现这个目标?

9 个答案:

答案 0 :(得分:16)

Parallel coordinates是一种用于可视化高维数据的流行方法。

哪种可视化最适合您的数据,尤其取决于其特征 - 不同维度的相关性如何?

答案 1 :(得分:10)

如果尺寸相关,

Principal component analysis可能会有所帮助。

答案 2 :(得分:8)

我要搜索的流行语是multidimensional scaling。这是一种开发从高维空间到较低空间(2维或3维)的投影的技术,使得在整个空间中靠近的点将在投影中接近。

它通常用于可视化聚类算法的输出(即,如果您的聚类在MDS投影中是紧凑的,那么它们很可能也在整个空间中。)

编辑:这不一定有助于确定数据是密集还是稀疏,因为您在投影中丢失了比例,但它会显示它是统一的还是块状的(也许这就是你的意思)。

答案 3 :(得分:3)

不确定您希望从数据中看到哪种模式。 t-SNE及其更快的变体Barnes-Hut-SNE在可视化高维数据的相关概念组方面做得非常出色。它可以通过R。

获得

有一个简短的教程,使用它来处理大约300维的高维数据。 http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi

答案 4 :(得分:3)

我一直在寻找可视化高维数据的方法,并找到了有效使用的t-SNE technique。也可以帮助别人。

答案 5 :(得分:2)

查看http://www.ggobi.org(巡视,平行坐标,散点图矩阵)可用于实值变量。最近也是http://cranvas.org。 R中的旅行包。

答案 6 :(得分:1)

尝试使用http://hypertools.readthedocs.io/en/latest/

HyperTools是一个用于在Python中可视化和操作高维数据的库。

答案 7 :(得分:0)

Star Schema。

http://en.wikipedia.org/wiki/Star_schema

适用于高维数据。

如果您的事实表的基数接近您的维度大小的乘积,则您拥有密集数据。

如果您的事实表的基数小于维度大小的乘积,则您的数据稀疏。

在中间你有一个判断电话。

答案 8 :(得分:0)

curios.IT数据探索软件专为高维数据的可视化而设计:数据显示为3D对象的集合(每个数据组一个),可同时显示多达13个变量。与其他技术(如平行坐标)相比,数据变量和视觉特征之间的关系更容易记住。