我已经使用Google Cloud Vision API进行文档文本检测,但是我不知道是否可以让我们定义从中提取文本的特定图像区域。 例如,如果我的图像有3列文本,并且我想提供要在其上执行OCR的特定列的左上角坐标,宽度和高度。可能吗? 当图像中有3列文字时,还有其他方法可以避免文字混乱吗?
答案 0 :(得分:2)
当前,无法定义要从中提取文本的图像的特定区域。在REST或gRPC API中,图像上下文中都没有可用的参数。可能的解决方法是裁剪图像并仅发送要转录的文本。如果您想尝试使此过程自动化,则可能使用object localization或crop hints功能。
关于混杂的文本,您也许可以在Json response中找到每个块或段落。
答案 1 :(得分:0)
您可以围绕Detector类构建自己的包装器类。然后在送入detect方法的框架对象中重新构建位图。