应用错误收集

是否可以很好地衡量我的数据集在分类任务中的表现。进行分类的理想方案是，每个类别的点应聚拢得更近，不同类别的每个聚簇应分开得很远。有没有办法衡量这种善良。
一个好的数据集看起来像这样不好的数据集看起来像这样

背景：我正在尝试根据inception-v3模型生成的2048维嵌入对一些图像进行分类。我尝试通过将三维还原为3维来可视化模型，但它丢失了大量信息。我试图弄清楚我的图像的嵌入是否具有相同的类聚类，而不同的聚类是否相距遥远。