使用.NET进行屏幕刮擦

时间:2011-07-08 17:24:56

标签: .net ocr

我有大约100K扫描图像[pdf格式/ tif,jpg],需要从中读取数据然后上传到硬盘。我计划提供一个小应用程序,它将有助于自动化数据输入工作。

市场上是否有免费的屏幕抓取工具可以帮助实现流程自动化。

我最初的想法是逐个阅读每个图像并通过应用程序提供数据。但是,要查看然后逐个提供数据肯定会花费一些时间,并且在阅读图像时也存在人为相关错误的可能性。

所有想法/方法都会非常有用。

我需要在下周开始时提供一些解决方案。

2 个答案:

答案 0 :(得分:3)

Screen Scraping正在下载网页并从中提取信息。

要从图像中提取文本,您需要执行名为光学字符识别 OCR 的操作。有许多软件产品可供您使用。

答案 1 :(得分:0)

通过扫描或传真方式创建的PDF文件具有图像内容(它是文本的图片)。如果您的PDF是通过基于文本的应用程序的打印驱动程序创建的(Word打印为“Bullzip”,那么它的文本内容可能会被“刮掉”。我对以前的版本有过良好的体验虽然还有其他产品会做你想做的事。{/ 3}。{/ 3>

相关问题