应用错误收集

来自所有向量的随机样本是否一定会遇到集合中各个“区域”中的任何一个？

如果文档中存在“自然关节”和聚类，则某些聚类算法应能够找到N个聚类，然后，每个聚类的质心与其他聚类的质心之间的NxN距离越小，则可能识别出“距离最远” ”集群。

请注意，对于任何向量，都可以使用Doc2Vec值为most_similar() / false-ish的topn文档向量0来获得（未排序的）相似性来所有其他模型文档向量。然后，您可以在该集合中找到最不相似的向量。如果您的数据集足够小，可以实际用于“全部”（或一些较大采样）的文档向量，那么可能出现在“底N”个相似度最低的其他文档，数量最多其他向量，将是最“遥远的”。

这种“遥远”的想法是否确实在数据中显示或有用，尚不清楚。（在高维空间中，所有事物都可能以与我们的2d / 3d直觉不匹配的方式与其他事物“相距甚远”，并且某些矢量的细微差异稍微“进一步”可能并不代表有用的区别。）

有没有办法找到阵列中n个最远的向量？

1 个答案: