Question

我正在尝试将PDF转换为文本以进行解析，并且遇到了结构复杂的PDF的问题，例如以下示例学生资助报告： Sample Document 您可以假定我的PDF是文本编码的。

使用Apache Tika / PDFBox和Norconex Importer（依赖于Apache库）进行解析将返回以下内容：

1. Last Name 2. First Name 3. Middle Initial
4. Mailing Address
5. City 6. State Abbreviation 7. ZIP Code
8. Social Security Number 9. Date of Birth 10. Your telephone number
11. Driver's License Number
12. Driver's License State Abbreviation
13. Student's E-mail Address
...[header/footer text]...
SMITH JOHN J
Processed: 04/22/2019
742 EVERGREEN TERRACE
SPRINGFIELD
XXX-XX-4444
JOHNSMITH@HOTMAIL.COM

很难解析，因为成对的键和值被其他键/值或垃圾文本分隔。但是，使用Adobe Acrobat的“另存为文本”选项，我得到以下信息：

1.Last Name
SMITH
16-character answer box for question 1
2.First Name
JOHN
12-character answer box for question 2
3.Middle Initial
J
1-character answer box for question 3 
4.Mailing Address
742 EVERGREEN TERRACE
35-character answer box for question 4 
5.City
SPRINGFIELD
16-character answer box for question 5

我猜测Adobe Acrobat具有用于将字段映射到答案框的隐式词典结构，但是是否有任何文档阅读库保留了这种结构？还是有一种方法可以配置Apache或Norconex库来处理此问题？任何建议将不胜感激。

Adobe Acrobat“另存为文本”解析器

0 个答案: