拓扑数据分析 - 从哪里开始

时间:2014-08-06 13:19:52

标签: python r visualization topology

我最近遇到过拓扑数据分析' (TDA)作为可视化大型数据集的独特方式。这是斯坦福大学的论文,其示例输出结束https://research.math.osu.edu/tgda/mapperPBG.pdf

我希望产生类似的结果,但我很难在网上找到可运行的代码,在那里安装软件包,加载示例数据,然后执行几行(如http://scikit-learn.org/示例)。我的语言偏好是Python,但也可以使用R.

有没有人能够吸引TDA,如果有的话,有关如何启动和运行代码的任何建议吗?

3 个答案:

答案 0 :(得分:7)

有一个新的r包:

TDA: Statistical Tools for Topological Data Analysis
该软件包为持久同源性和密度聚类的统计分析提供了工具。

可以在这里找到写得很好的小插图:Introduction to the R package TDA

摘要

  

我们提供了一个简短的教程和使用R包的介绍   TDA,为拓扑数据分析提供了一些工具。在   特别是,它包括一些功能的实现   数据,提供有关基础空间的拓扑信息,例如   作为距离函数,到度量的距离,kNN密度   估计器,核密度估计器和核距离。该   次级集(或超级集)的突出拓扑特征   这些功能可以用持久的同源性来量化。我们   为C ++的高效算法提供R接口   图书馆GUDHI,狄俄尼索斯和PHAT,包括一个功能   Rips过滤的持久同源性,以及持久性的同源性   任意函数的次级集(或超级集)的同源性   通过点网格进行评估。中国特色的意义   可以使用函数分析生成的持久性图   实施Fasy,Lecci,Rinaldo,Wasserman,   Balakrishnan和Singh(2014),Chazal,Fasy,Lecci,Rinaldo和   Wasserman(2014c)和Chazal,Fasy,Lecci,Michel,Rinaldo和   Wasserman(2014a)。 R包TDA还包括实现   用于密度聚类的算法,允许我们识别   与a相关的概率质量的空间组织   密度函数,并通过树形图,可视化它   集群树。

答案 1 :(得分:2)

对于可视化,Cytoscape具有桌面和浏览器版本。

它建议生成两个python库(Bioconductor和igraph)here

答案 2 :(得分:1)

Dionysus是一个计算持久同源性的C ++实现。它有一个很好的PyBind包装器,可以很容易地在python中进行实验。

最近出现了Dionysus版本2,其具有绘图功能,这将使其更容易深入研究。看看这里:

http://www.mrzv.org/software/dionysus2/tutorial/plotting.html

从位于欧几里德空间的通用数据集(例如2D或3D数组)中,构建Rips复合体可能是一个很好的切入点,这在此解释:

http://www.mrzv.org/software/dionysus2/tutorial/rips.html