有些人从图像的片段中提取SIFT特征,例如“128维SIFT描述符是在16×16像素块上计算的,在网格上密集采样,在水平和垂直方向上的规则间距为8像素”
为什么他们不直接从原始图像中提取SIFT?从这样的原始图像片段中提取SIFT有什么好处?
谢谢!
答案 0 :(得分:0)
首先,我想说SIFT特征是一个128维描述符。使用包含实际兴趣点(从DoG获得的极值)的16x16邻域计算128维。这非常具体(more information and links to Lowes papers)
目标部分是为什么他们会在常规8x8间距的网格上进行采样?我能想到的唯一原因是减少计算时间
创建已知数量的描述符。如果图像是M×N,那么描述符数=(M / 8)x(N / 8)在整个图像上运行SIFT可以产生聚集在一起的许多描述符。并且可能是无限的。由于每个描述符的计算成本很高,减少数量会减少计算时间。即使是一个小的100x100图像也可能有数百个描述符。这种方法会将其减少到~144
查找关键点实际上是一项密集型任务。它涉及检查DoG金字塔的每个体素并检查体素中心的极值(最大值或最小值)(对于每个八度音阶和DoG的每3个音阶)。如果你可以跳过这一步并假设每隔8x8网格间距,就可以省去通过整个DoG和所有八度音阶和音阶的昂贵操作。
再次,这些只是我的意见,但我希望它可以帮助你一点点
答案 1 :(得分:0)
在我的图像处理问题中,我还需要在算法忽略的图像区域中使用SIFT功能。因此,我强制使用SIFT算法为图像的每个面片赋予特征。