自定义词典在endeca中不起作用

时间:2014-02-25 07:07:40

标签: dictionary stemming endeca

我正在尝试在词干中添加自定义词典,但没有找到运气。

我尝试过的步骤:

1)我在/config/script/DataIngest.xml中添加了以下几行:

<dgidx id="Dgidx" host-id="ITLHost">

<args>

  .....
  <arg>--stemming-updates</arg>

  <arg>C:/Endeca/Apps/CRS/config/script/stemmingExtension.en.xml</arg>
</args>

</dgidx>

并在stemmingExtension.en.xml中添加了以下几行:

<word_forms_collection_updates>

<WORD_FORMS>

    <WORD_FORM>shuts</WORD_FORM>

    <WORD_FORM>shirts</WORD_FORM>

</WORD_FORMS>
</word_forms_collection_updates>

进行基线更新,然后尝试搜索“关闭”并希望获得“衬衫”结果,但不是。

在词干分析中设置自定义词典单词的正确方法是什么?

提前感谢您的帮助。

Basavaraj

2 个答案:

答案 0 :(得分:0)

您使用的是什么版本的etl显着组件?我记得oeid 3.0软件包中有一个类似的bug,不幸的是答案是clover etl中使用的组件没有从java的api中调用适当的方法来获取词干。您可以构建一个直接调用java api的模型,以查看使用的不同方法

答案 1 :(得分:0)

对于Endeca 3.1.2版本,请尝试将其添加到/MDEX/<version>/conf/stemming/en_word_forms_collection.xml(英语)

示例:

<WORD_FORMS_COLLECTION>
...
<WORD_FORMS>

<WORD_FORM>shuts</WORD_FORM>

<WORD_FORM>shirts</WORD_FORM>

</WORD_FORMS>

<WORD_FORMS_COLLECTION>