使用luncene索引多语言字段

时间:2013-07-21 02:24:27

标签: lucene multilingual

我有多语言文档记录用lucene索引。也就是说,每个文档记录都使用一种语言,但是有不同的语言记录。我打算将它们保存在一个索引中,以便我可以使用多语言查询进行搜索。目前,文档记录在一个数据输入文件中,如下所示:

<DOCID>1<\DOCID>
<LANGUAGE>CHINESE<\LANGUAGE>
<TEXT>中文内容<\TEXT>

<DOCID>2<\DOCID>
<LANGUAGE>ENGLISH<\LANGUAGE>
<TEXT>Some English text<\TEXT>

我的问题是:有没有办法在一个索引编写器的同一个字段中使用不同的分析器?或者我应该将文档记录拆分为两个不同语言的输入文档以应用不同的索引编写器但是附加到相同的索引?

提前感谢您的建议!

1 个答案:

答案 0 :(得分:1)

当您致电IndexWriter.addDocument时,您可以提供打算用于文档的分析器。

但是,您可能会从将不同的语言文本拆分到不同的字段中获益更多,这样可以防止对错误的语言进行点击,并允许您在检测到错误语言后创建AnalyzerWrapper来分配相应的分析器。正确的语言。