我有一个带有文本元素的xml,它保存从OCR读取的文本。 OCR阅读文本并不总是准确的,因此存在拼写错误的英语单词的情况。有没有办法可以指定只有英文字典中的单词被编入索引。
答案 0 :(得分:3)
使用MarkLogic,数据库配置和XML构成索引API。因此,这种自定义通常会涉及对XML的更改。在这里,我看到两种基本方法:
理想情况下,这些转换中的任何一个都可以通过OCR软件完成,但您可以将其作为自定义CPF管道的一部分来实现。
另一种需要考虑的方法是检查用户对非英语单词的查询,并排除这些单词。这可能采取“你的意思是什么?”的形式。提示。