应用错误收集

在Apache Tika OCR的PDF中自定义图像预处理是否有最佳实践？

时间：2019-08-29 18:34:05

标签： pdf ocr apache-tika

将内部包含扫描/拍摄的图像的pdf文件提供给Apache Tika时，处理器会提取图像（如果配置正确）并将其交给tesseract。这对于OCR形状合适的图像（来自纸张扫描仪）效果很好，但对于来自电话摄像头（例如是否有一种方法可以在将每个图像页面发送到tesseract之前，由Tika为其调用自己的图像预处理器？

0 个答案:

没有答案

导入富文档时是否有SOLR的最佳实践schema.xml？
如何从不可搜索的pdf中检测出可搜索的pdf？
有没有办法让tika在找到匹配后停止解析文件？
使用tika库从java中的图像中提取文本
使用不正确的结构OCR从PDF中提取数据
如何使用Tika解析器/ Java检测pdf是否是扫描文档
Solr从image和imagePdf文件中提取文本
如何从pdf文件中的图像中提取文本？
是否可以在不卸载tesseract的情况下禁用Tika中的OCR模式
在Apache Tika OCR的PDF中自定义图像预处理是否有最佳实践？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？