应用错误收集

Apache Lucene TokenStream过滤器

时间：2012-08-23 19:41:49

标签： java lucene machine-learning

我对Apache Lucene Library有一些疑问：

1）如何将两个TokenStream对象连接成一个TokenStream对象？

2）可以使用哪个过滤器从TokenStream对象中删除所有重复的标记（具有相同的值）？

先谢谢

1 个答案:

答案 0 :(得分：0)

就两个来源连接而言，只需向Field添加两个名称相同的Document个实例。这保证与连接值的单个字段相同。

就消除重复的术语而言，这不是必需的。 Lucene将仅计算文档的术语频率，以便将其评分更高。如果您不需要，可以将实现Similarity的{{1}}实例定义为常量1。

或者，如果您只需要禁用每个字段的字词频率，则可以使用tf实例化Field。