我需要将Apache Lucene生成的索引转换为另一个集合表示。
我目前拥有一系列具有多种属性的文档。
我需要创建具有相似性度量的文档对,以便将它们传递给分类器。
你知道我可以使用哪些教程来执行此操作吗?
感谢
答案 0 :(得分:1)
相似性度量需要基于查询。即,您查询Lucene文档集,然后返回一组具有相对分数的文档。
如果你想比较每个文件(这是正确的吗?很难从问题中得知),那么你需要使用每个文件的一个特征作为查询的基础。
例如,您可以从每个文档中提取前N个术语(按频率,不包括停用词)。如果你有X文件,那么你将有X个查询。然后,您针对索引执行每个X查询,并获得每个文档与其他文档的相对相似性。这是一个可用于分类的矩阵。
另一种选择是使用每个文档的标题或概要作为查询的基础(同样,不包括停止)。