应用错误收集

忽略非英语单词的索引

时间：2015-03-03 11:31:00

标签： marklogic

我有一个带有文本元素的xml，它保存从OCR读取的文本。 OCR阅读文本并不总是准确的，因此存在拼写错误的英语单词的情况。有没有办法可以指定只有英文字典中的单词被编入索引。

1 个答案:

答案 0 :(得分：3)

使用MarkLogic，数据库配置和XML构成索引API。因此，这种自定义通常会涉及对XML的更改。在这里，我看到两种基本方法：

转换文本以删除不在词典中的单词。它们不会出现在XML中，因此不会对它们编制索引。
转换文本以标记字典中不存在的单词，然后配置数据库字查询设置以排除该元素。它们仍将出现在XML中，但MarkLogic不会为排除的元素创建单词查询术语。

理想情况下，这些转换中的任何一个都可以通过OCR软件完成，但您可以将其作为自定义CPF管道的一部分来实现。

另一种需要考虑的方法是检查用户对非英语单词的查询，并排除这些单词。这可能采取“你的意思是什么？”的形式。提示。