java - 覆盖与Lucene的相似性，改为使用LSA + SVD

我正在使用Lucene进行搜索和返回匹配的现有项目。它没有使用任何自定义分析器或任何外部算法。文档很小，行数不超过50个单词，因此我知道LSA AND SVD对短文本的效果要好于语料库文档（通常tf-idf适用于每个文档中的长文本），我想放LSA And SVD作为搜索非精确单词匹配时的相似度量。我的问题是：

我需要custom analyzer吗？我搜索了那个，但我发现的是自定义分析器主要用于分析文档，而不是真正应用相似性度量。
或者我是否需要更改此链接中的相似性https://lucene.apache.org/core/3_5_0/api/core/org/apache/lucene/search/package-summary.html#changingSimilarity？

如果是，使用LSA作为自定义相似性的任何示例？我是java和lucene的新手，我迷失了如何开始，任何帮助将不胜感激

我的文件总数是数百万，但每个文字都很少。

覆盖与Lucene的相似性，改为使用LSA + SVD

0 个答案: