从PDF获取数据到php / html / javascript

时间:2013-05-07 16:53:56

标签: php pdf ocr

我想问一个人想一想pdfs。

所以我想从pdf中获取一些数据,但只是指定数据。是否有可能选择从PDF格式中获取什么?

例如这个图像,所以你可以看到我想从pdf中输出哪些数据: pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png

感谢

1 个答案:

答案 0 :(得分:0)

这个问题涉及两个主要过程:OCR和数据捕获(或解析)

OCR代表光学字符识别。此过程将图像转换为文本。如果您的PDF是纯图像PDF(没有文本层,如扫描,传真,光栅化等),则必须使用此类软件。如果您的PDF已包含电子文本数据,您可以跳过此步骤。

智能数据定位和提取的数据捕获标准,例如在所有其他文本中查找特定字段。有专门的软件包和/或解析过程(参见我之前的帖子here)。

如果您的所有文档都包含与文本相同的“区域”,则可以裁剪图像,然后将较小的区域传递给OCR,从而简化文本提取逻辑(因为文本处理的文本较少) )。

伊利亚安德