我正在使用Lucene
进行搜索和返回匹配的现有项目。它没有使用任何自定义分析器或任何外部算法。文档很小,行数不超过50个单词,因此我知道LSA AND SVD
对短文本的效果要好于语料库文档(通常tf-idf适用于每个文档中的长文本),我想放LSA And SVD
作为搜索非精确单词匹配时的相似度量。我的问题是:
我需要custom analyzer
吗?我搜索了那个,但我发现的是自定义分析器主要用于分析文档,而不是真正应用相似性度量。
或者我是否需要更改此链接中的相似性https://lucene.apache.org/core/3_5_0/api/core/org/apache/lucene/search/package-summary.html#changingSimilarity?
如果是,使用LSA作为自定义相似性的任何示例?我是java和lucene的新手,我迷失了如何开始,任何帮助将不胜感激
我的文件总数是数百万,但每个文字都很少。