标签: numpy
我有5000个512维向量。我想对该向量执行余弦相似度最近邻。我想将它们存储在DBSM中,这就是为什么我需要降低向量的维数的原因,因为Postgresql仅支持max_dimension = 100的多维数据集数组。
我已经阅读了有关LSH的内容,并尝试使用高斯随机投影。据我了解,这不适用于我的问题,因为我通过epsilon设置0.7获得了所需的尺寸。结果是失真太高了。