同时聚类癌症基因表达数据?

时间:2018-07-27 13:43:35

标签: cluster-analysis

我正在研究基因表达数据聚类技术,我已经从网上下载了35个数据集, 我们有35个数据集,每个数据集都代表一种癌症。每个数据集都有其自己的特征。这些数据集中有一些在多个功能中共享,而从功能的角度来看,其中一些不共享任何内容。

我的问题是,我们如何最终对这些数据进行聚类,而其中许多却没有相同的特征?

我认为我们同时对所有35个数据集进行聚类操作。 我的想法正确吗?

感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

我假设当您说异质性时,就像是存在不同基因的不同基因表达平台一样。

您可以使用任何聚类技术,但是您需要编写自己的距离度量标准,该距离度量标准考虑了数据集中的异构性。例如,您可以使用成对样本之间共有的所有基因的相关性,从中创建一个距离矩阵,然后在该距离矩阵上使用分层聚类之类的方法

答案 1 :(得分:0)

我认为不需要编写自己的距离度量。已经存在大量可用于混合数据类型的距离度量。例如,行距距离对于混合数据类型而言效果很好。与此相同,请参见此post。但是,如果您的数据仅包含连续值,则可以使用k均值。如果先对数据进行预处理,您的状况也会更好。