如何验证高维数据(基因表达)的聚类(分析)

时间:2019-05-15 18:29:08

标签: validation bigdata cluster-analysis

你好,我是新来的人,我希望我已经正确输入了所有内容,并且此问题在正确的论坛中。另外,我之前已经检查过,似乎没有以前的问题可以与这个问题相提并论。

对我的问题: 我目前正在使用clValid软件包进行集群方法的验证。现在,我处理的数据集非常大(1,000至25,000),它是基因表达。现在的问题是,用于验证高维数据集的哪些方法根本没有问题。也许还有另一个包可以验证高维空间中的聚类。我之前必须做PCA吗?我的数据集有多大,以便可以在上面使用clValdi(我不想让我的计算机运行数小时,或者我应该让它运行并等待100x500的小型数据集的结果),我为每一个感谢建议也许有我尚未想到的解决方案。

clValid

1 个答案:

答案 0 :(得分:0)

我宁愿依赖这些索引中的任何一个。

  1. 这些措施通常要求群集完整且不相交,并且不适用于典型的Gene双生簇。在实验中观察到的任何效应中都没有基因
  2. 我们通常在设计时会考虑低维高斯数据,并且一旦获得了所有距离都很大的高维数据,它们就会测量出聚类之间没有对比度(因为他们的测量看不到任何两个数据点之间的对比

我担心您可能需要通过复杂的领域特定分析进行评估。