.NET程序扫描.PDF中图表中的可渲染文本 - 不是用于单词而是用于值 - 文本位置功能?

时间:2013-02-10 07:04:49

标签: c# .net text-recognition

您好我有一张图表,我需要对系统进行审核并给出结果......

图表图片位于此处....

example chart .pdf http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/

http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/

- 假设图表在.PDF中并且文本是可渲染的。 “高亮能”。

- 假设图表每次都以完全相同的方式和相同的位置放在页面上

- 假设图表可以更改 - 也就是说,我需要能够按照完全相同的格式上传1000张这些图表,但是从图表到图表有一些备用信息。

- 承担VAST在.NET中的专业知识 - 并且在实际文本解释方面缺乏专业知识。

- 承担解释具有可编辑字段的.PDF的专业知识......我已经这样做了,这仅限于我创建的.PDF,并且能够在每个字段上放置值等。

- 假设此图表只能在单个文本可渲染.PDF中交付 - 也就是说 - 我们与创建此图表的网站进行交互 - 此网站没有API可与之交互,我们必须打印到PDF此图表来自网页,这就是我们所能做的......(政府网站)

使用.NET系统,我需要创建一个程序......或者将现有的应用程序合并到我的.NET系统中,它将查看此图表,并能够分辨每个“X”代表什么...是说左边一英寸或下一行的“X”是不同结果的指标(参见图表)

我需要程序执行搜索并根据.PDF文档触发文件夹或其他内容的触发器返回结果。假设我们从头开始创建程序,我们可以处理这部分...否则我们将仅限于根据需要与现有应用程序进行交互。

我们对各种策略持开放态度。假设存在这样的类或对象,我们考虑根据文档中的位置读取文本,比如X,Y类。另一个可取的路线是某种stringBuffer(假设是C#),但是需要能够导航图表网格线并且需要计算空白以准确地解释“X”的位置以及“X”的含义根据其位置。第三种选择,我们不知道的事情。

如果某些事物存在且经过考验并且是真的,那当然是最好的。然后是使用.NET和C#与它连接的任何提示。

非常感谢Code Gawds!

卷轴

1 个答案:

答案 0 :(得分:0)

好的我们发现了一些名为ClearImage的软件 - 它并不便宜,但它非常整洁。它将以相同的方式分析任何图像Adobe PDF分析文档以查找表单字段。在清晰图像完成后,它会为您提供一个“blob”列表,然后您可以指定每个blob的含义并为其提供唯一标识。这允许基于图像中的“blob”放置来自动声明值。

它还允许对图像进行“指纹”排序,因此如果要显示相同的图像,它可以识别它...在我的情况下,我们有3个不同的图表模板,实际上每个都会有所不同由于图表不同,但最终每个模板都有相同的布局,从图表的倍数...这有助于我们的系统识别输入的图表然后在第一次检查后,继续任何化每个blob。

无论如何,值得一看,是否有其他人应该遇到这个问题并且需要这种类型的功能。我不想让它没有答案。随着我们了解更多信息,我可能会对此进行更新。我知道这不是一个编码问题,但这种类型的任务是编码密集型的,如果有人想要执行相同的任务,他们可能会在这里找到他们的方式。我将尽力用stackoverflow的精神更新有关集成和对象等的注释等。

如果有人对此软件有更多关于编码的问题,您可以在这里提出或发布一个新问题,我们很乐意发布我们使用的代码(方法,类对象等)(在C#中)将其整合到我们/您的计划中。