我是机器学习的新手,所以请原谅这个问题中的任何错误...
我们正在一个有以下特定要求的项目中工作:
用户从包含一堆产品(药品)的药房架子上拍照,并将其上传到Azure
我们正在使用Azure认知服务对图片进行OCR,并从中检测文本
在大多数情况下,OCR将返回很多文本,其中很多有用,但有些行我们不需要它们,OCR可能返回拼写错误的单词(与产品名称非常相似)
我们有一个产品名称/公认术语的词典(手工制作(种类为vademecum))
我们需要的是OCR返回的每一行文本:
我们以以下图片为例: Sample Image
OCR返回以下行( 在第二列(--->)我们的预期结果 ):
OCR可能会返回拼写错误的单词(与产品名称非常相似)请参见第2行和第3行。您如何建议实施这种模糊匹配?
我们希望将不同类型的产品配置(FLORATIL 100,FLORATIL 200,FLORATIL AT 250)加入主要药物类别= FLORATIL
您如何看待遵循的最佳管道来解决此问题?我们想使用Azure机器学习服务中可用的任何算法,但是我们可以使用python或其他堆栈
谢谢!
答案 0 :(得分:0)
根据您的需求定义,您可以简单地添加Azure搜索并获得所需的内容:
~
并指定queryType=full
以执行模糊匹配,请参阅文档here)
您只需要使用提到的字典来设置Azure搜索