Question

我们正在设计一个可以接受此格式命令的系统

command context

上下文是从大约200个元组的列表中定义的，例如：

physical therapy
cardiac
physician visit
hospital inpatient
hospital outpatient
etc.

我们希望系统能够纠正用户错误，例如拼写错误，还要了解“物理治疗”与“物理治疗师”相同并且也接受同义词

最后，如果它不是完全匹配，它应该要求用户消除最佳匹配之间的歧义

我正在考虑这样做：

这不是一个简洁的解决方案，尤其是第3步和第5步。

更好/更简单的方法是什么？任何图书馆都可以用C＃，奖金来做。

Lucene可能会这样做吗？任何指导意见。

谢谢！

Answer 1

对于您的目的而言可能过于不精确，但Soundex是一种常见的算法，用于判断两个单词是否“听起来相似”。

Answer 2

我认为Lucene最适用于第4步和第5步，因为Lucene目前仅支持“glob”意义上的近似匹配（通配符 - “？”用于匹配单个字符，“*”用于匹配多个字符）。

有一整套关于近似匹配的文献 - 我将从agrep工作开始并从那里开始（但部分原因是因为我熟悉agrep）。