我对Computer Vision非常陌生,我尝试建立一个CV模型,该模型将检测和识别价格标签并从中提取信息。我已经训练了可以使用YOLO检测价格标签的模型。但是我也想教我的系统检测和识别仅写在这些价格标签内的文本。而不是将此信息解析为不同的部分,例如:价格,产品名称,产品说明。或者也许我首先需要解析检测到的块(价格标签左侧的价格块,右侧的产品名称,等等),然后读取它。任何想法都会得到应用。
答案 0 :(得分:2)
好吧,我首先想到的是裁剪使用YOLO检测到的对象,然后在该图像上运行OCR。运行OCR后,您必须进行一些后处理,以将每一行文本分类为特定类别(价格,名称等)