这是一个基本问题,我无法从solr帮助和其他相关的Stackoverflow查询中获得。
我有几十万个文件,里面有12个字段(要编入索引)。所有这些字段都包含文本(每个字段可以包含不同长度的文本 - 可以是10到5000个字符)。 例如,假设这些字段命名为A,B ...... L(总共12个)
现在,当我搜索文档时,我的查询来自3个字段。 X1,X2和X3。 现在X1(概念上)与字段C,D和E紧密匹配.X2(概念上)与字段F,G和J紧密匹配.X3基本上与A字段相同。 但是应该在整个领域(包括A)搜索X1和X2。只是过滤它们的概念匹配字段是不行的。
因此,在设计架构时,我唯一的标准是排名和搜索。 我也想(我可以吗?)对各个字段进行分数查询。像这样的东西
查询:X1,针对C,E和所有得分(对于所有返回的文档)得分
查询:X2,对M,N,O和所有得分(对于所有返回的文档)的分数
查询:X1 + X2,对C,E,M,N和O的得分,以及所有得分(对于所有返回的文档)
我想要那些个人分数的原因是我想进一步使用ML算法的那些分数来进一步重新调整/适应训练集的排名。
我也希望X1和X2的tf-idf矢量分量分别对抗C,E和M,N,O。
有人可以告诉我这是否可能?