应用错误收集

我正在寻找一种处理pdf和照片的OCR解决方案。处理后的文本应该以我们可以从中获取特定数据的方式进行解释，因此我们可以将其链接到某些字段。上传的pdf和图像将始终包含所有必需的数据，但模板/布局可能不同。我能给出的最好的例子是处理发票和标记公司名称，执行的工作，财务细节等。

我已经看过Tesseract，这似乎是一个很好的OCR，但我不知道如何从中提取某些标签。我不认为'布局分析'是我正在寻找的，是吗？ Tesseract也不适用于以下要求。

文档处理需要集成在：

中

现有HTML 5网站
用Javascript编写的IOS和Android应用程序。该应用程序不应要求互联网连接功能。所有处理必须在设备上进行，离线。该应用程序可以根据后端执行的培训自行“更新”。

我正在研究开源和付费解决方案。