将集合层次结构可视化为颜色编码图形

时间:2012-07-02 15:52:31

标签: java javascript data-visualization graph-algorithm

我最近一直在阅读有关Java和Javascript图形库的相关内容,但我还没有找到一个很好的方法来做我想做的事情。

基本上我有一组关于一堆元素的集合(最多几千个)。这些组可以完全或部分重叠,完全覆盖或完全彼此不相交。我想要做的是显示以下信息:

  • 集合的大小(与其他集合相关)
  • 根据其涵盖的元素计算的集合的“热量”值(颜色代码)
  • 单个图表中集合的完整拓扑结构(以便向用户显示重叠,交叉点等)

编辑:也许我应该举例说明我所说的集合和元素以及部分重叠的层次结构。以下是我处理的那种套装的过度简化版本(请注意数字1 - 10和字母a - hX表示彼此相当的元素):

Set1 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}
Set2 = {1, 2, 3, 4, 5, 6}
Set3 = {1, 2, 3}
Set4 = {1, 4, 5, 6, 7}
Set5 = {a, b, c, d, e, f, g, h}
Set6 = {a, b, c, d, e}
Set7 = {a, b, c, 7}
Set8 = {2, 4, 7, 8, c, f}
Set9 = {X}

我不确定如何以直观的方式显示这些信息。我看过Voronoi ¹²图形,我非常喜欢它们,但它们有不同的数学背景,所以我认为我不能以适当的方式描绘我所拥有的层次结构。我想在运行时(在Java的情况下)或在HTML部署的情况下使用Javascript创建这些图表,要么非常好。然而,有一个限制因素是图形需要创建或可以导出到高分辨率矢量图形。

我的问题简短:

  1. 有没有一种很好的方式可视化我拥有的数据类型?如果是这样的话,它是以易于实现的形式(即图书馆)存在的吗?
  2. 如果问题没有简单的解决方法,换句话说,如果我需要在这种情况下发明我的轮子,我该如何自己实现这样的图形?什么是一个好的起点?我应该特别注意什么?
  3. 谢谢!

    编辑:我有可能将通用集中的所有元素布局为具有所需颜色叠加层的六边形网格,然后绘制集合的边界。然而,该想法存在若干问题,特别是指定元素的位置的问题,使得集合不会在整个图形上被分割。有什么意见/建议吗?

4 个答案:

答案 0 :(得分:9)

是的,这是一个相当充分研究的问题。您所描述的内容称为hypergraph。每个元素都可以表示为图形中的顶点,并且这些集合是超边界。那么问题就变成了可视化超图的问题。

enter image description here

不幸的是,没有一个完美的,通用的解决方案,因为即使最简单的图形也可以有复杂的可视化。

如果您的集合相对较小(<5个元素),则可以使用常规图形绘制库,如graphviz。要做到这一点,只需连接每组中的所有顶点对,然后对它们进行不同的着色。这将产生类似于此的解决方案:

enter image description here

答案 1 :(得分:4)

您是否考虑过二维网格:

  • 将设定数字放在一个轴上
  • 将所有集合中的唯一元素放在另一个轴上
  • 为集合中找到元素的每个单元格着色(通过查看该行和列的标签)

虽然这种可视化方法通常不如目前提到的一些更复杂的方法,但是当你拥有数千个元素和数千个集合时,它具有实际可能的优点。

诀窍在于以一种对用户有用的方式将最多信息放在一起的方式对行和列进行排序。我的直觉说你要解决的问题是让彩色细胞尽可能“斑点” - 如果每组相邻的有色细胞被称为“区域”,则具有最少数量的不同区域,并且他们有最少的洞。

这本身就是一个非常复杂的问题,但至少可以通过针对每个集合处理每个集合的一些邻接因素来解决。你正在寻找的是接近的“孤岛” - 所以从一对最相似的集开始,将它们添加到图中,并将它们视为一个区域。重新计算您的亲密度数字与替换它所拥有的对的区域(以某种方式平均?)。找到下一个最接近的项目对(每个项目是一个区域或一组),如果该项目在图表中任何现有区域的某个接近阈值内,请附加到该区域的一侧,否则创建一个新项目,单独区域(再次移除该对的接近度值并重新计算该区域本身)。最终,所有集合都将添加到区域,并且所有区域都将加入。连接两个区域可能有四种可能性(可能需要翻转),因此可以通过两个区域的4个边缘上的集合的接近度来计算图形中要附着的边。

虽然这可能永远不会给出最佳配置,但它应该提供与随机分布相比具有较少区域的东西。

最后,一些动态重新排序可能很有用,允许用户选择一个有趣的集合或元素,并将其用作完全重新排列的图表的种子,根据与的接近程度计算每个添加元素(以及随后与另一个元素组合后的那个区域),而不是任何整体的最低接近度。

这是结果图,在您的问题中对示例数据集完成了上述逻辑过程:

Sets and Elements

决定如何订购列是很复杂的,但基本上你可以通过将列移动到相邻时获得一些合理的结果,这样的移动不会干扰任何已经添加的段的彩色块区域。

其他想法:

  • 计算集合接近度不仅仅是它们共有多少元素,还有它们有多少不相同的元素。如果两对集合在这些对之间具有共同的3个元素,但是一个具有5个非共享元素而另一个具有3个非共享元素,那么具有3个非共享元素的对与另一个非常匹配。< / LI>
  • 向图表添加集合后,可以重新排序元素。尽可能将元素堆叠在最左边是第一次放置的良好开端。在那之后,最左边堆叠最常见的元素似乎很好。在那之后,它崩溃了。我想知道是否让彩色单元格靠近对角线(从左上角到右下角)也是一个有用的算法 - 这让我想起了Design Structure Matrix,虽然它只显示单向依赖,而不是双向关系。
  • 当彩色blob包含与所有其他集完全不相交的集合(例如示例中包含X的集合)时,可以将其移动到单独的图形中。

答案 2 :(得分:1)

有很多方法可以解决这个问题,但就个人而言,我会使用动态生成的SVG和Raphael JS这样的工具绘制一个维恩图表,然后按照我想要的方式对其进行着色。此外,Raphael具有类似Set的api,可以让您提供有关元素及其关系的完整详细信息。 SVG to Code converter也可能有助于理解如何生成SVG元素。

或者你也可以使用像Venn charts这样的工具:

Venn chart sample

似乎很容易适应这种情况。还有Flotr2可以创建气泡图:

Bubble chart flotr

甚至是Canvas Express

Canvas Xpress Diagrams

使用任何后续工具进行一些调整可以让你正确完成它......

答案 3 :(得分:0)

我没有以正确格式获取数据的解决方案。看看麻省理工学院创建的这个javascript插件,用于构建图形sigmajs。没看过它接受的数据,但可能值得一看。