我有一个食谱数据库,其基本结构为成分列表及其相关数量。如果您获得食谱,您如何识别允许变化和遗漏的类似食谱?例如,使用牛奶代替水,或者用蜂蜜代替糖,或者完全省略用于调味的东西。
目前的策略是对主要成分的组合进行多个内部联接,但是对于大型数据库来说这可能会非常慢。还有另一种方法吗?相当于perceptual hashing的东西是理想的!
答案 0 :(得分:0)
此技术通常用于机器学习,用于文本识别作为相似性度量。有了它,你可以计算两个文本之间的距离(实际上,在任意两个向量之间),可以解释为这些文本的数量相同(越接近,越相似)。
以简单的方式查看解释余弦相似度的this great question。通常,您可以使用任何相似性度量来获取比较食谱的距离。 This文章讨论了不同的相似性度量,如果您想了解更多,可以查看它。