Apache Lucene TokenStream过滤器

时间:2012-08-23 19:41:49

标签: java lucene machine-learning

我对Apache Lucene Library有一些疑问:

1)如何将两个TokenStream对象连接成一个TokenStream对象?

2)可以使用哪个过滤器从TokenStream对象中删除所有重复的标记(具有相同的值)?

先谢谢

1 个答案:

答案 0 :(得分:0)

就两个来源连接而言,只需向Field添加两个名称相同的Document个实例。这保证与连接值的单个字段相同。

就消除重复的术语而言,这不是必需的。 Lucene将仅计算文档的术语频率,以便将其评分更高。如果您不需要,可以将实现Similarity的{​​{1}}实例定义为常量1。

或者,如果您只需要禁用每个字段的字词频率,则可以使用tf实例化Field