机器学习克服错字错误

时间:2013-08-20 07:59:45

标签: text machine-learning classification

我有一份药物名称列表(crocin,seroflo,oxitab等)。清单很长。现在假设我需要查找列表中是否存在特定药物,但也可能存在拼写错误。假设我打算在列表中找到crocin,但我改为输入crosin。我想要机器学习算法克服我的这个印刷错误以及像crocin和crosin这样的小差异,它应该在找到匹配时返回

2 个答案:

答案 0 :(得分:5)

我认为你不需要机器学习,一个简单的编辑距离算法应该这样做。

https://en.wikipedia.org/wiki/Edit_distance

答案 1 :(得分:0)

我同意使用ML方法的必要性值得怀疑。但如果您真的想使用基于学习的方法进行“拼写校正”(我不确定这是否适用于医学名称),您可以参考以下论文:

  

基于winnow的上下文敏感拼写纠正方法

     

噪声通道拼写校正的改进误差模型

     

基于大型排名系统的搜索查询拼写纠正

     

用潜在的查询拼写校正的判别模型   结构SVM

     

以域为中心的搜索中的拼写校正的图表方法。

本文是关于人名的更正:

  

基于哈希的拼写纠正个人姓名的方法