我对Apache Lucene Library有一些疑问:
1)如何将两个TokenStream对象连接成一个TokenStream对象?
2)可以使用哪个过滤器从TokenStream对象中删除所有重复的标记(具有相同的值)?
先谢谢
答案 0 :(得分:0)
就两个来源连接而言,只需向Field
添加两个名称相同的Document
个实例。这保证与连接值的单个字段相同。
就消除重复的术语而言,这不是必需的。 Lucene将仅计算文档的术语频率,以便将其评分更高。如果您不需要,可以将实现Similarity
的{{1}}实例定义为常量1。
或者,如果您只需要禁用每个字段的字词频率,则可以使用tf
实例化Field
。