我们有一个应用程序可以获取不同语言的文本。我们的目标是理解文本的语言,使用不同的词干分析每种语言并对其进行索引。我能够使用Solr's Language Detection机制检测语言。
现在,我想使用每种语言的不同fieldType动态分析文本,并将每个文本存储在不同的字段中。
例如,假设我在schema.xml
中有以下字段。
<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>
<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>
<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>
当我检测到该文本是英文时,我想将其动态添加到text_en
字段,该字段将使用与其他字段不同的技术进行分析/截取。
Solr上有内置机制支持吗?如果是,我该如何配置它?或者我应该为此目的开发插件吗?
答案 0 :(得分:2)
请查看language detection parameter 对我而言,首先你必须使用默认值或覆盖映射以将语言映射到字段,其中语言字母代码(如en,de,....)是字段名称的一部分。
看看这个:
http://alisalimi25.blogspot.de/2012/07/phonetic-search-and-language-detection.html
... ad看起来会填充字段的示例:title_na,title_da,...
抱歉,我不是百分百肯定,但这就是我解释文档的方式。