我有一个搜索引擎,它通过查看倒排索引中的搜索文本来搜索文本并编写相应的网页集,并抛出相应的网页。
现在我想添加一个功能,即它会根据颜色进行搜索。
例如,当我搜索“ RED SHOES ”时,它会显示所有处于倒排索引数据结构中的红鞋。
我对算法的看法,
所以这是我的爬行方法,当任何搜索就像“红鞋”一样。它通过查看红色索引找到相应的红色项目。
这是我的算法构建阶段,这就是我没有为上述算法编写任何代码的原因。一旦我得到正确的方法,我就开始编码阶段。
所以请给我一个建议,
这是一个好算法吗?或
是否需要进行任何优化或更改,如果是,请与我分享/讨论这些变化。
提前致谢。寻找你的回应。
答案 0 :(得分:1)
对于任何可扩展的搜索引擎,如果没有图像分析,您几乎肯定会更好。相反,考虑通过例如属性的文本来索引图像。 <img>
标记。例如,如果图像的替代文字为"red shoes"
,则可以在该文本下索引图像。当您稍后搜索"red"
时,图像将有可能被返回。
如果您认真关于进行此类图像分析,可以使用图像魔术等库来计算颜色直方图。然后,您可以应用聚类模型甚至只是决策树来注意某些范围内的大量颜色,并声明一组颜色标记(如"red"
,"rouge"
,"vermillion"
,等)然后将图像编入索引。
如果您感觉绝对疯狂,您可以在直方图本身上进行余弦相似。这样您就可以将图像作为查询提交。但不知怎的,我不认为这就是你的想法。