就Lucene / Solr而言,我刚从托儿所出来,所以我可能会试图完全错误地利用它,但我希望有人可以指出我正确的方向。
我的文件(少于3,000份)是分类标准的简短陈述。所有都是单句,有些句子长度不超过4-6个字。每个文档只有一个字段,因此搜索多个字段不是我要研究的路径。我想要做的是查询工作相关文档的内容,并返回相关的分类声明。
目前我正在使用Solr附带的默认示例设置,其中添加了来自Wordnet的动词同义词,因为我正在尝试识别已执行的操作(即“将服装改为规范”的分类声明)。
基本单词匹配按预期工作,但我想使事情更复杂一些。由于查询太长,因此在搜索小文档时,我永远不会得到高相关性分数。我确信这可以通过以某种方式对分数进行标准化来解决,因此我并不真正关心分数的出现,而是确定正在识别的实际陈述(文档)。
我是否会更好地直接索引文档(当前是长查询)并查询每个分类声明并编译/排序结果,还是可以通过其他方式有效地对这些小文档执行这些长查询?我认为这可能会带来它自身的困难。
答案 0 :(得分:0)
我认为你在这里尝试做什么没有尽头,我的意思是你的短文档索引肯定会受到信息湖的影响,而长时间的查询会使每个结果在它面前几乎平坦,甚至扩展文档使用Wordnet同义词添加每个术语会让我感到困惑和误导,我的建议是查询其他可能的查询形式。