应用错误收集

时间：2011-07-08 17:24:56

标签： .net ocr

我有大约100K扫描图像[pdf格式/ tif，jpg]，需要从中读取数据然后上传到硬盘。我计划提供一个小应用程序，它将有助于自动化数据输入工作。

市场上是否有免费的屏幕抓取工具可以帮助实现流程自动化。

我最初的想法是逐个阅读每个图像并通过应用程序提供数据。但是，要查看然后逐个提供数据肯定会花费一些时间，并且在阅读图像时也存在人为相关错误的可能性。

所有想法/方法都会非常有用。

我需要在下周开始时提供一些解决方案。

答案 0 :(得分：3)

Screen Scraping正在下载网页并从中提取信息。

要从图像中提取文本，您需要执行名为光学字符识别或 OCR 的操作。有许多软件产品可供您使用。

答案 1 :(得分：0)

通过扫描或传真方式创建的PDF文件具有图像内容（它是文本的图片）。如果您的PDF是通过基于文本的应用程序的打印驱动程序创建的（Word打印为“Bullzip”，那么它的文本内容可能会被“刮掉”。我对以前的版本有过良好的体验虽然还有其他产品会做你想做的事。{/ 3}。{/ 3>