我使用Spark和graphX制作代表相似图像的图形(图像名称用作顶点,如果两张图片有共同的标签,那么边缘就是这样)。据我所知,graphX将数据分区存储在不同的机器上,但这些分区并不代表图形的可能集群。有没有办法可以使用graphx创建表示图形的可能聚类的子图,其中聚类是图形中连接最多的部分,与其他节点连接最少?
以下是我尝试逐步进行的操作:
- 以一定的概率为数据集中的每张照片添加标签
- 将每张照片的标签与其他所有照片进行比较,并将相似的图像名称保存在元组中(例如,如果image1和图像53的标签为“狗”,概率大于0.5,则存储他们是' image1,image53')
- 使用Graphx制作图表,其中顶点是图像名称,边缘位于相似的顶点之间。
- 将此图划分为多个群集,即我想要图表中高度连接的组件的子图,如果有的话,我想将其存储为'相册'
醇>