我知道最好使用aws Rekognition。但是,当我尝试使用自己拥有的图像(看起来像带有标签的小容器)时,它似乎无法很好地工作。文本拼写错误且不完整。
我是ML和Sagemaker的新手。从我所看到的,用例似乎是用于预测和图像分类。我找不到训练模型以检测图像中的文本的方法。 Sagemaker可以做到吗?如果有人指出我正确的方向,我将不胜感激。
答案 0 :(得分:3)
不同的服务都将为光学字符识别(OCR)提供不同级别的抽象,具体取决于您最喜欢使用管道的哪些部分以及您希望抽象的部分。
以下是一些选择:
识别将为开箱即用的OCR提供DetectText功能。但是,您似乎需要在当前情况下对图像执行某种预处理,以便获得更好的结果。可以通过您选择的任何方法(Lambda,EC2等)完成此操作。
SageMaker 是一个工具,可让您轻松训练和部署自己的模型(任何类型)。 SageMaker有两个主要选项:
“自己动手”选项:如果您打算采用标记自己的数据,收集可观的训练集并训练自己的OCR模型的路线,这就是可以通过SageMaker训练和部署自己的模型来实现。
现有的OCR算法:目前有许多算法对于OCR具有不同的潜在折衷。一个示例是Tesseract。使用此功能,您可以将预处理步骤与文本检测更紧密地结合在一起。
Amazon Textract(在预览中)是一种专用的专用OCR服务,根据您的图像外观和选择的设置,它可能会提供更好的性能。
我个人建议使用pre-processing for OCR来看看它是否可以提高识别精度,然后再使用其他选项。即使它不能提高Rekognition的准确性,它对于其他大多数选项还是很有价值的!