Question

每个Lucene doc都是一个配方，每个配方都有成分。

我努力寻找成分，并给出一个结果，说两个成分匹配四个。（例如）

那么如何将这些成分添加到doc中呢？在solr中，我可以创建多个字段并将它们全部保存，我可能做错了，因为它只保存了一个成分。

这也适用于像'tags'这样的字段。

p。我正在使用Zend框架，如果它很重要的话。

Answer 1

Lucene文档支持添加多个同名字段。即你可以反复打电话：

document.add(new Field("name"), value)

你是这样做的：

# (pseudo-code) 
document1.add(new Field("ingredient"), "vanilla") 
document1.add(new Field("ingredient"), "strawberry") 
index.add(document)

# And then search for
index.search("ingredient", "vanilla" && "strawberry")

您将获得document1。但是如果你搜索：

index.search("ingredient", "vanilla" && "apple")

您将无法返回 document1 。

如果您搜索：

index.search("ingredient", "vanilla" || "apple")

您还可以返回 document1 。

如果您想查看哪些成分匹配，只需将文档中的字段保存为存储字段，然后为每个匹配的文档检索字段列表并将其与用户查询进行比较。

另请注意，默认情况下，添加到文档的具有相同名称的字段的 PositionIncrementGap 为0.

这意味着如果您添加：

   document1.add(new Field("ingredient"), "chocolate") 
   document1.add(new Field("ingredient"), "orange")

然后它将被视为一种名为“巧克力橙”的单一成分，它可能匹配：

index.search("ingredient", "chocolate orange")

您可以避免为PositionIncrementGap设置一个值＆gt; 1，将产生：

0匹配：

index.search("ingredient", "chocolate orange")

和1匹配：

index.search("ingredient", "chocolate" &&  "orange")

Answer 2

我在这里看到两种可能的方法：

对数据进行非规范化 - 为配方中的每种成分创建单独的文档，为配方的所有文档提供通用配方ID。然后，在搜索期间，汇总配方ID的所有匹配项。有点难看。
将所有成分连接到一个公共字段，并将其编入“文本”索引。然后使用带有'OR'的布尔查询搜索成分（这在Java Lucene术语中称为'Should'，我不知道PHP等价物。）

我建议你尝试第二种方法，看看它是否有帮助。

Lucene索引具有相同性质的多个字段

2 个答案: