我正在尝试在词干中添加自定义词典,但没有找到运气。
我尝试过的步骤:
1)我在/config/script/DataIngest.xml
中添加了以下几行:
<dgidx id="Dgidx" host-id="ITLHost">
<args>
.....
<arg>--stemming-updates</arg>
<arg>C:/Endeca/Apps/CRS/config/script/stemmingExtension.en.xml</arg>
</args>
</dgidx>
并在stemmingExtension.en.xml
中添加了以下几行:
<word_forms_collection_updates>
<WORD_FORMS>
<WORD_FORM>shuts</WORD_FORM>
<WORD_FORM>shirts</WORD_FORM>
</WORD_FORMS>
</word_forms_collection_updates>
进行基线更新,然后尝试搜索“关闭”并希望获得“衬衫”结果,但不是。
在词干分析中设置自定义词典单词的正确方法是什么?
提前感谢您的帮助。
Basavaraj
答案 0 :(得分:0)
您使用的是什么版本的etl显着组件?我记得oeid 3.0软件包中有一个类似的bug,不幸的是答案是clover etl中使用的组件没有从java的api中调用适当的方法来获取词干。您可以构建一个直接调用java api的模型,以查看使用的不同方法
答案 1 :(得分:0)
对于Endeca 3.1.2版本,请尝试将其添加到/MDEX/<version>/conf/stemming/en_word_forms_collection.xml
(英语)
示例:强>
<WORD_FORMS_COLLECTION>
...
<WORD_FORMS>
<WORD_FORM>shuts</WORD_FORM>
<WORD_FORM>shirts</WORD_FORM>
</WORD_FORMS>
<WORD_FORMS_COLLECTION>