我有一系列(让我们说1000)生物样本......活细胞的图像。在这个系列中,每个像素的数据将描述时间变量" wave",如果愿意的话,给出光强度与时间的关系。在对此波形执行FFT后,我将获得每个像素的频率内容和相位。
我的目标是能够找到测量单个细胞的所有像素,并且想知道某种聚类技术是否会给我我想要的东西。经过一些研究(我几乎不知道聚类分析)看KMeans,DBSCAN和其他一些人,我不确定如何继续。
这是我的标准:
群集应由连接的像素组成,最大大小为 大约9-12像素(这是由单元格的实际大小定义的 视野)。在群集中放置更多像素可能意味着 群集包含多个单元格,我更喜欢每个单元格 群集代表单个单元格。
细胞以某些频率/相位发出信号(发光)。这些不一定是同步的,所以我认为这可能有助于隔离细胞/簇。
每张图片中都有未知数量的单元格,因此群集数量未知。
将图像分割成较小的子图像进行分析(这里的原因与此无关)。这些子图像将分别针对聚类进行分析。子图像大约为100 x 100像素。
任何建议都将不胜感激。我正在寻找帮助指向正确的方向。
答案 0 :(得分:0)
可能最灵活的是经典的旧的分层凝聚聚类(HAC)。出于某种原因,人们总是忽视这种强有力的方法,而更喜欢更有限的kmeans。
HAC非常适合参数化。它需要一个距离或相似性(这里的要求很少 - 可能应该是对称的,但不需要三角形不等式)。通过连接,您可以很好地控制簇的形状或直径。例如,使用完整链接,您可以控制群集的最大直径。这在这里可能有用,我的建议。
HAC的主要缺点是(1)可扩展性:在50.000个实例中它会很慢并且使用太多内存,当然(2)你需要知道你想要做什么:你需要选择距离,连接,并削减树形图。使用k-means,您只需选择k即可获得(差)结果。
DBSCAN是一个很好的算法,但在你的情况下,很可能形成具有多个单元的集群。所以我宁愿尝试OPTICS,也许能够发现DBSCAN只看到一个大blob的子结构。