我遇到了一个问题,其中几个不同的对象分别用实数向量描述,介于0和100之间,长度(维度)为1000个元素。
然后我想比较一个具有相同特征的新矢量和上面的矢量集,找到最相似的,与马哈拉诺比斯距离。
我的问题是:
如何将向量的长度减少到N个最相关的元素(比如1000个中的100个),而不会过多地影响找到的答案的质量,即距离变化不是太大?
请记住,每个向量都是对不同对象的描述,与其他对象无关。
我考虑过使用PCA,但在研究之后,我发现每个对象至少需要两个样本,或者我理解。
有什么想法吗?在编码的情况下,我使用的是C ++,OpenCV
提前致谢。