图像爬行和索引算法(通过图像的颜色)和文本搜索给出相应的图像

时间:2013-02-28 03:56:50

标签: algorithm image-processing lucene indexing inverted-index

我有一个搜索引擎,它通过查看倒排索引中的搜索文本来搜索文本并编写相应的网页集,并抛出相应的网页。

现在我想添加一个功能,即它会根据颜色进行搜索。

例如,当我搜索“ RED SHOES ”时,它会显示所有处于倒排索引数据结构中的红鞋。

我对算法的看法,

  1. 在不同的地方制作图像的数据结构。
  2. 每当找到图像时,就像夹克的图像一样,所以使用一些颜色查找算法来计算它的所有颜色。
  3. 将该图像放入所有颜色索引中。
  4. 所以这是我的爬行方法,当任何搜索就像“红鞋”一样。它通过查看红色索引找到相应的红色项目。

    这是我的算法构建阶段,这就是我没有为上述算法编写任何代码的原因。一旦我得到正确的方法,我就开始编码阶段。

    所以请给我一个建议,

    这是一个好算法吗?或

    是否需要进行任何优化或更改,如果是,请与我分享/讨论这些变化。

    提前致谢。寻找你的回应。

1 个答案:

答案 0 :(得分:1)

对于任何可扩展的搜索引擎,如果没有图像分析,您几乎肯定会更好。相反,考虑通过例如属性的文本来索引图像。 <img>标记。例如,如果图像的替代文字为"red shoes",则可以在该文本下索引图像。当您稍后搜索"red"时,图像将有可能被返回。

如果您认真关于进行此类图像分析,可以使用图像魔术等库来计算颜色直方图。然后,您可以应用聚类模型甚至只是决策树来注意某些范围内的大量颜色,并声明一组颜色标记(如"red""rouge""vermillion",等)然后将图像编入索引。

如果您感觉绝对疯狂,您可以在直方图本身上进行余弦相似。这样您就可以将图像作为查询提交。但不知怎的,我不认为这就是你的想法。