高容量扫描和ocr自动解决方案?

时间:2009-05-21 23:26:18

标签: document ocr scanning kofax

我们需要高容量扫描和ocr解决方案

我们正在谈论每天大约4000个文档的数字化,并将它们保存为带有ocr的pdf文件(隐藏文本)......

解决方案应该让操作员扫描文档并自动将文件保存到特定的网络资源,由将其上传到数据库的应用程序采取...

我们正在评估来自kofax http://www.kofax.com/

的企业解决方案 你知道其他什么产品吗?

有类似要求的经验吗?

任何开源(或至少可访问)的解决方案?

com,activex api支持?

5 个答案:

答案 0 :(得分:5)

有许多扫描产品供应商可以做你想做的事情 - 扫描,索引,用OCR覆盖生成PDF(个人而言,我更喜欢PDF格式的OCR底层)。对于专门从事扫描的供应商来说,这些要求非常简单。除了Kofax之外,仅举几个其他供应商/产品:

  • EMC / Captiva的InputAccel产品
  • Datacap
  • eCopy ShareScan
  • 的Verity /夫/自治

许多文档管理解决方案还具有内置扫描前端,但它们通常不如专用捕获产品那样具有功能。几乎所有这些解决方案都支持COM / ActiveX API。我不知道任何扫描的开源解决方案,但我还没有真正搜索任何一个。

大多数扫描软件供应商都使用“批量”或“容量”许可证。通常情况下,交易量在期限结束时更新(即每年1M页 - 每年自动续订,无需额外费用)。因此,您不会严格按“每页”付费,因为如果您每年购买的图像数量为1M,而您最终只能扫描500K页,则不会获得退款。虽然不太常见的是一次性卷不会自动更新,但是当它耗尽时,您将需要购买额外的卷。大多数供应商正在远离加密狗来控制数量,并且正在转向软件许可。

关于Kofax的附注:

Kofax历来通过增值经销商系统销售,因此各种实施的质量可能差异很大。此外,它具有高度可定制性,并具有多种附加模块,因此一个客户的Kofax系统可能与其他系统有很大不同。

Kofax用于企业级系统,每年扫描和自动捕获数百万个文档。它占据了文档扫描市场份额的很大一部分。不,我不是Kofax的粉丝,如果我是,我就不会提到有竞争力的产品;但是,我对它非常熟悉。与市场上的其他产品一样,它有优点和缺点。我意识到迈克尔只是在传达他所听到的内容,但我不能让这种笼统的概括在没有评论的情况下传递。说具有相当大的市场份额百分比的产品对扫描来说“无用或用户友好”就像是说“Windows不是一个有用的服务器操作系统”。这是一个过于宽泛的概括。

干杯,

布赖恩

答案 1 :(得分:0)

Kofax不是非常有用或用户友好(根据我与县工作的同行)。这是足够的,但不是很好。

我们使用全Adobe解决方案。要遵循的细节(我不负责运行该区域,因此我必须为您收集一些信息)。

更新:我们使用

Adob​​e Acrobat Capture 3.0
两个带有ADF的RICOH彩色扫描仪IS760D
Acrobat Standard或Professional(取决于用户)

我们拥有广泛的图书馆(近6,000份文件),可提供数十万个扫描页面。进行扫描的计算机上有一个加密狗(我们购买了250,000次扫描,直到我们需要购买'更新');我没有可用的费用,因为处理那个的绅士已经回家了,但我记得每页只有微美分。

我们经常扫描当天需要完成的数百页的文档,我们完成任务没有问题。

如果您想了解我们已经完成的工作,可以在http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx找到我们的一些工作(网络前端,或对我们的图书馆进行分类)的链接。

至于将这些PDF放入数据库中,创建一个应用程序(可能是一项服务)来监控目录并抓取Capture运行后弹出的每个PDF都很容易,将信息复制到数据库,然后将其删除或移至新家。

答案 2 :(得分:0)

PSIGEN是Kofax的绝佳替代品,具有丰富的功能和合理的价格。

Kofax Alternative Scanning and Capture Application

答案 3 :(得分:0)

您希望自己的OCR有多好?您是否需要所有内容都是人类可读的,或者您只是需要一些内容才能对文档进行分类(客户编号;文档类型;条形码...)。

http://www.irislink.com是一家开发扫描和分类文档解决方案的公司 他们的软件包含在多个品牌的多功能和消费者扫描仪中。 企业更倾向于提取信息并使用它(例如,将发票自动输入到会计软件中) 我的经验是,它比Kofax(我们使用两者)更好地处理OCR的文本(纠正单词等);虽然Kofax可以进一步扩展以达到更好的水平(这意味着更多的设置工作和更多的维护)。

这两种软件对于处理文档的方式非常有用 如果您唯一的愿望是扫描文件;转换为pdf并将其保存在网络共享上;你可能有足够的购买一台好的扫描仪并使用附带的软件 您可能还希望查看tesseract项目;它是一个开源的ocr引擎,效果很好。

答案 4 :(得分:0)

您可以尝试使用ChronoScan,它通过tesseract免费提供OCR,并具有表单识别选项,并且可以免费用于非商业用途。

该软件处于高级开发阶段,您有一个与开发人员直接对话的论坛。

http://www.chronoscan.org Short video reading forms