我有一些高度结构化的pdf文件,这些文件是我拥有的一些历史技术记录的扫描副本。大约有几千页(约2K页)涉及,我试图自动提取所涉及的信息。
以下链接包含我在Google上找到的图片。我不拥有图像,但出于说明的目的,我试图提取存在于结构化"块中的信息。与此类似,并以编程方式处理提取的信息。
所有文本都是打印/类型书写的文本,理论上应该提供良好的准确性。我愿意根据需要学习这项工作,但我不知道从哪里开始。我想知道
这是一次性的练习,这意味着它正在制作“漂亮的”#34;和"哑巴" (即不需要GUI)并不重要。
谢谢!
答案 0 :(得分:0)
使用两种工具的组合可以实现这一点。 iText和Tesseract OCR。 伪代码:
有用的链接:
http://itextpdf.com/itext7/pdf2Data
http://tess4j.sourceforge.net/