我有一份药物名称列表(crocin,seroflo,oxitab等)。清单很长。现在假设我需要查找列表中是否存在特定药物,但也可能存在拼写错误。假设我打算在列表中找到crocin,但我改为输入crosin。我想要机器学习算法克服我的这个印刷错误以及像crocin和crosin这样的小差异,它应该在找到匹配时返回
答案 0 :(得分:5)
我认为你不需要机器学习,一个简单的编辑距离算法应该这样做。
答案 1 :(得分:0)
我同意使用ML方法的必要性值得怀疑。但如果您真的想使用基于学习的方法进行“拼写校正”(我不确定这是否适用于医学名称),您可以参考以下论文:
基于winnow的上下文敏感拼写纠正方法
噪声通道拼写校正的改进误差模型
基于大型排名系统的搜索查询拼写纠正
用潜在的查询拼写校正的判别模型 结构SVM
以域为中心的搜索中的拼写校正的图表方法。
本文是关于人名的更正:
基于哈希的拼写纠正个人姓名的方法