覆盖与Lucene的相似性,改为使用LSA + SVD

时间:2016-07-06 18:09:48

标签: java lucene override lsa

我正在使用Lucene进行搜索和返回匹配的现有项目。它没有使用任何自定义分析器或任何外部算法。文档很小,行数不超过50个单词,因此我知道LSA AND SVD对短文本的效果要好于语料库文档(通常tf-idf适用于每个文档中的长文本),我想放LSA And SVD作为搜索非精确单词匹配时的相似度量。我的问题是:

  1. 我需要custom analyzer吗?我搜索了那个,但我发现的是自定义分析器主要用于分析文档,而不是真正应用相似性度量。

  2. 或者我是否需要更改此链接中的相似性https://lucene.apache.org/core/3_5_0/api/core/org/apache/lucene/search/package-summary.html#changingSimilarity

  3. 如果是,使用LSA作为自定义相似性的任何示例?我是java和lucene的新手,我迷失了如何开始,任何帮助将不胜感激

    我的文件总数是数百万,但每个文字都很少。

0 个答案:

没有答案