忽略非英语单词的索引

时间:2015-03-03 11:31:00

标签: marklogic

我有一个带有文本元素的xml,它保存从OCR读取的文本。 OCR阅读文本并不总是准确的,因此存在拼写错误的英语单词的情况。有没有办法可以指定只有英文字典中的单词被编入索引。

1 个答案:

答案 0 :(得分:3)

使用MarkLogic,数据库配置和XML构成索引API。因此,这种自定义通常会涉及对XML的更改。在这里,我看到两种基本方法:

  1. 转换文本以删除不在词典中的单词。它们不会出现在XML中,因此不会对它们编制索引。
  2. 转换文本以标记字典中不存在的单词,然后配置数据库字查询设置以排除该元素。它们仍将出现在XML中,但MarkLogic不会为排除的元素创建单词查询术语。
  3. 理想情况下,这些转换中的任何一个都可以通过OCR软件完成,但您可以将其作为自定义CPF管道的一部分来实现。

    另一种需要考虑的方法是检查用户对非英语单词的查询,并排除这些单词。这可能采取“你的意思是什么?”的形式。提示。