Lucene:找到最接近的号码

时间:2017-08-19 15:57:25

标签: c# lucene lucene.net

我正在使用 Lucene.Net ver 3.0.3.0 并试图找到一种搜索数字(整数)的方法,并最终将结果返回到最接近的数字在列表中得分较高。

为简单起见,我简化了文件:

private void WriteDocument(IndexWriter writer, string product, int weight)
{
    Document document = new Document();

    var fieldProduct = new Field("Product", product, Field.Store.YES, Field.Index.NOT_ANALYZED);
    document.Add(fieldProduct);

    var fieldWeight = new NumericField("Weight", Field.Store.YES, true);
    fieldWeight.SetIntValue(weight);
    document.Add(fieldWeight);

    writer.AddDocument(document);
}

它由2个字段组成:产品重量。最后一个是数字字段。

出于测试目的,我插入了一堆文档:

WriteDocument(writer, "ONORNN", 100);
WriteDocument(writer, "ONORNN", 200);
WriteDocument(writer, "ONORNN", 300);
WriteDocument(writer, "ONORAA", 400);

前3个产品代码相同。权重可以是1到999之间的任何值。

我可以看到Lucene.Net提供了一种使用NumericRangeQuery搜索范围内数字的方法,但这对我没有帮助,因为它不允许输入接近值,只有{{1 }和mix

max

我可以用任何其他类型的查询来实现我想要的吗?

1 个答案:

答案 0 :(得分:1)

不幸的是,我不是C#专家,所以我很快查看了Lucene.Net 3.0.3中提供的内容,这是建议的解决方案(我将混合使用Java代码,但希望你能理解它)

所以,你需要使用FunctionQuery,它实际上并不是Lucene 3.0.3的一部分,但它是为Lucene.Net移植的。此查询将允许基于文档字段中的值提供自定义评分。

Query q = new FunctionQuery(new DistanceDualFloatFunction(new IntFieldSource("weight"), new ConstValueSource(245)));

static class DistanceDualFloatFunction extends DualFloatFunction {

    public DistanceDualFloatFunction(ValueSource a, ValueSource b) {
      super(a, b);
    }

    @Override
    protected String name() {
      return "distance function";
    }

    @Override
    protected float func(int doc, FunctionValues aVals, FunctionValues bVals) {
      return 1000 - Math.abs(aVals.intVal(doc) - bVals.intVal(doc));
    }
  }

所以,基本上我正在创建一个函数查询,它使用两个参数函数并精确计算 245 (我选择的值)和实际值之间的绝对差值。

我有以下文件:

addDocument(writer, "doc1", 100);
addDocument(writer, "doc2", 200);
addDocument(writer, "doc3", 300);
addDocument(writer, "doc4", 400);
addDocument(writer, "doc5", 500);
addDocument(writer, "doc6", 600);

结果如下:

stored,indexed,tokenized<title:doc2> 955.0
stored,indexed,tokenized<title:doc3> 945.0
stored,indexed,tokenized<title:doc1> 855.0
stored,indexed,tokenized<title:doc4> 845.0
stored,indexed,tokenized<title:doc5> 745.0
stored,indexed,tokenized<title:doc6> 645.0

你要面对的问题:

  • Lucene.Net没有DualFloatFunction,所以你需要以某种方式使用你拥有的already。对我来说最有希望的是ReciprocalFloatFunction。另一种方法是实现自己的DualFloatFunction。

总体结论 - 这是可能的,但你需要花一些时间将它用于C#和Lucene.Net。

解决方案的完整来源位于here