在Galago中使用停用词删除索引集合

时间:2015-11-15 14:40:12

标签: information-retrieval lemur

  

我使用Galago成功索引了一个集合。我没有找到任何用于删除索引的停用词的参数。 galago会自动删除停用词吗?如果不是,我如何将禁用词列表传递给Galago以及如何告诉Galago删除停用词?

1 个答案:

答案 0 :(得分:2)

Galago作为一个研究搜索引擎,试图不做出无法收回的假设:默认情况下,索引是针对词干未受限制的术语构建的。

在索引时间内,不会删除任何停用词,在查询时给您带来负担,但允许更改或调整训练集上的停用词列表。

如果要删除停用词,则需要执行查询时步骤。如果你考虑一下,这就是任何现代搜索引擎想要的东西,除非局限于磁盘空间:查询"是或不是"没有停用词或更复杂的技术是无法回答的,但是最好编写一些代码来删除停用词,除非它清空查询而不是无条件地删除它们。

Galago可以访问" inquery"通过WordLists类的停用词列表。