Apache Lucene:如何将集合索引转换为另一种格式?

时间:2011-02-24 10:37:29

标签: java lucene

我需要将Apache Lucene生成的索引转换为另一个集合表示。

我目前拥有一系列具有多种属性的文档。

我需要创建具有相似性度量的文档对,以便将它们传递给分类器。

你知道我可以使用哪些教程来执行此操作吗?

感谢

1 个答案:

答案 0 :(得分:1)

相似性度量需要基于查询。即,您查询Lucene文档集,然后返回一组具有相对分数的文档。

如果你想比较每个文件(这是正确的吗?很难从问题中得知),那么你需要使用每个文件的一个特征作为查询的基础。

例如,您可以从每个文档中提取前N个术语(按频率,不包括停用词)。如果你有X文件,那么你将有X个查询。然后,您针对索引执行每个X查询,并获得每个文档与其他文档的相对相似性。这是一个可用于分类的矩阵。

另一种选择是使用每个文档的标题或概要作为查询的基础(同样,不包括停止)。