任何人都可以澄清多个图像描述符如何组合在一起。我的意思是,如果我做一个正常的SIFT,那么它给我一个128xN矩阵,其中N是描述符的数量。现在要添加可以具有不同维度的HOG描述符矩阵,程序是什么(因为简单地连接它们听起来没有意义)?组合的最终输出将用于使用k均值聚类创建单词模型包。
答案 0 :(得分:0)
连接功能听起来没有意义,但你应该试试。它被称为“早期融合”。它可以工作。
通常晚期融合效果更好(分别学习特征然后合并两个机器学习的结果/输出)。
我为combining BoVW and BoW进行了测试,你应该看看论文的第二部分C部分“多模式融合技术”。